|
本帖最后由 terence 于 2011-9-2 14:26 编辑
在前面介绍焦磷酸测序的特点时,提到了这种测序技术容易在homopolymer出现错误。Homopolymer是指只含有一种碱基的序列片段。Homopolymer的错误有两种,一种是由于Homopolymer的信号内在的随机性造成的,测序仪测出的长度与真实的长度不符,可能偏长,也可能偏短。另一种是因为化学合成的时候,一定比例的模板链没有反应,比大多数的模板滞后了,当积累到一定量的时候,会产生插入(insertion)的错误。在454中,这种现象称为Incomplete extension,而Ion Torrent管之成为lagging。另外一种合成异步现象称为Carry forward,是因为反应底物没有被清洗干净,使得一些模板比大部分模板提前合成了。测序错误会使得后续研究,比如检测SNP,DNA/RNA修饰,RNA-seq的allelic specific expression,宏基因组的OTU分析...,找出很多false positive的结果。此前,Bo Li (Bioinfo 2010) 在做Isoform表达模型时,专门引入了碱基替换矩阵从统计上描述测序错误。
在如何描述焦磷酸测序错误的数学模型方面,受Michael Waterman (Genomics, 1992) 提出的base call rate matrix的启发,我们针对焦磷酸测序的特点提出了一个length call rate matrix,把这两种matrix合起来对测序错误建模。考虑到,聚合酶的聚合活性在测序过程中不断减弱,3‘端的错误率要高于5’端,以及上面说到的异步现象(合称CAFIE),我们用了semi-homogeneous generalized HMM描述测序过程中的sequential dependency(文章今年应该能出来^^)
CAFIE对454的影响还是比较大的。Ion Torrent用了Trellis Model估计CAFIE的比率,然后在basecalling中对结果进行了校正,所以在Ion Torrent的数据的统计中,CAFIE明显偏少。
测序的错误模型是一个基因组测序领域比较永恒也是一直比较热的话题,中科院系统所的Prof. Lei Li在伯克利读博士的时候提出了cross-talking matrix,用来解决sanger测序中的信道之间互相干扰的问题。这个问题,在新在的Illumina测序中也是一个难点。最近Fabian Menges (Bioinfo, 2011)就提出了一个linear error model,把cross-talking和合成异步做到了一起。第三代测序出来后,测序错误的问题更严重,错误率达到15%。
简单给一个错误模型应用的例子,SNP Calling。PyroHMMsnp是我们自己做的方法,利用HMM对Mapping结果进行Realignment,用viterbi algorithm计算genotype likelihood。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|