|
信号空间比对,自己造的一词,不管准不准确,姑且用之。信号空间比对是说用测序仪的原始信号进行比对,而非碱基序列,比如454用亮度信号,SOLiD用颜色序列。因为测序仪的Base Caller是用统计的方法将原始信号转换成碱基序列,不可避免地会在测序仪错误之上再引入新的错误。直接在信号空间中做序列比对,是为了尽可能地避免这种错误,因为在后续的SNP calling时可以降低虚警率(false positive)。SOLiD在这方面的工作比较多,比如,多伦多大学的Brudno教授开发的 SHRiMP 和 VARiD,还有 PerM 和 ComB。
目前,454在这方面的工作只看到 PSB‘08 的 FLAT 和 Christopher Quince,et al, Nature Methods,09。
序列比对的查询序列(Query)和目标序列(Target)的属性应该是一致的,要么都是碱基序列,要么都是信号序列。对于454,第一步就是如何把碱基序列表示成信号序列,这里介绍一种编码,RLE。
RLE: Run Length Encoding
举个例子目标碱基序列是AACGAAATT,测序仪按照CGAT顺序输入反应物。这个碱基序列的RLE编码是<C,0><G,0><A,2><T,0><C,1><G,1><A,3><T,2>,RLE编码的第一个字符表示当前反应的碱基,第二个数字表示反应的数目。
上一篇介绍了测序仪的Error Model,对于454,Error Model 是 P( Intensity | Run Length )。把Error Model变换成序列比对的打分函数(Scoring Function),再设定插入删除的分值,就可以用动态规划做比对了。 |
|