机器学习和生物信息学实验室联盟

标题: 焦磷酸测序(3)信号空间比对 [打印本页]

作者: terence    时间: 2011-7-19 13:18
标题: 焦磷酸测序(3)信号空间比对
信号空间比对,自己造的一词,不管准不准确,姑且用之。信号空间比对是说用测序仪的原始信号进行比对,而非碱基序列,比如454用亮度信号,SOLiD用颜色序列。因为测序仪的Base Caller是用统计的方法将原始信号转换成碱基序列,不可避免地会在测序仪错误之上再引入新的错误。直接在信号空间中做序列比对,是为了尽可能地避免这种错误,因为在后续的SNP calling时可以降低虚警率(false positive)。SOLiD在这方面的工作比较多,比如,多伦多大学的Brudno教授开发的 SHRiMP 和 VARiD,还有 PerM 和 ComB。

目前,454在这方面的工作只看到 PSB‘08 的 FLAT 和 Christopher Quince,et al, Nature Methods,09。

序列比对的查询序列(Query)和目标序列(Target)的属性应该是一致的,要么都是碱基序列,要么都是信号序列。对于454,第一步就是如何把碱基序列表示成信号序列,这里介绍一种编码,RLE。

RLE: Run Length Encoding
举个例子目标碱基序列是AACGAAATT,测序仪按照CGAT顺序输入反应物。这个碱基序列的RLE编码是<C,0><G,0><A,2><T,0><C,1><G,1><A,3><T,2>,RLE编码的第一个字符表示当前反应的碱基,第二个数字表示反应的数目。

上一篇介绍了测序仪的Error Model,对于454,Error Model 是 P( Intensity | Run Length )。把Error Model变换成序列比对的打分函数(Scoring Function),再设定插入删除的分值,就可以用动态规划做比对了。
作者: zouquan    时间: 2011-7-19 16:48
赞,
没见过454的原始数据,我拿到的就是一个fasta文件和一个对应的qual文件,qual文件是fasta中每一位的质量,一般从30-45;

cap3等软件号称能够考虑qual文件中的信息,但我看有没有qual运行时间和运行结果都没啥变化,估计也只是“号称”,没有真正用到;否则应该多花费时间,至少也要多花费空间。
作者: terence    时间: 2011-7-19 21:13
zouquan 发表于 2011-7-19 16:48
赞,
没见过454的原始数据,我拿到的就是一个fasta文件和一个对应的qual文件,qual文件是fasta中每一位的质 ...

NCBI的SRA上的数据都有原始数据。




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2