机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 3211|回复: 2
打印 上一主题 下一主题

焦磷酸测序(3)信号空间比对

[复制链接]
跳转到指定楼层
楼主
发表于 2011-7-19 13:18:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
信号空间比对,自己造的一词,不管准不准确,姑且用之。信号空间比对是说用测序仪的原始信号进行比对,而非碱基序列,比如454用亮度信号,SOLiD用颜色序列。因为测序仪的Base Caller是用统计的方法将原始信号转换成碱基序列,不可避免地会在测序仪错误之上再引入新的错误。直接在信号空间中做序列比对,是为了尽可能地避免这种错误,因为在后续的SNP calling时可以降低虚警率(false positive)。SOLiD在这方面的工作比较多,比如,多伦多大学的Brudno教授开发的 SHRiMP 和 VARiD,还有 PerM 和 ComB。

目前,454在这方面的工作只看到 PSB‘08 的 FLAT 和 Christopher Quince,et al, Nature Methods,09。

序列比对的查询序列(Query)和目标序列(Target)的属性应该是一致的,要么都是碱基序列,要么都是信号序列。对于454,第一步就是如何把碱基序列表示成信号序列,这里介绍一种编码,RLE。

RLE: Run Length Encoding
举个例子目标碱基序列是AACGAAATT,测序仪按照CGAT顺序输入反应物。这个碱基序列的RLE编码是<C,0><G,0><A,2><T,0><C,1><G,1><A,3><T,2>,RLE编码的第一个字符表示当前反应的碱基,第二个数字表示反应的数目。

上一篇介绍了测序仪的Error Model,对于454,Error Model 是 P( Intensity | Run Length )。把Error Model变换成序列比对的打分函数(Scoring Function),再设定插入删除的分值,就可以用动态规划做比对了。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2011-7-19 16:48:51 | 只看该作者
赞,
没见过454的原始数据,我拿到的就是一个fasta文件和一个对应的qual文件,qual文件是fasta中每一位的质量,一般从30-45;

cap3等软件号称能够考虑qual文件中的信息,但我看有没有qual运行时间和运行结果都没啥变化,估计也只是“号称”,没有真正用到;否则应该多花费时间,至少也要多花费空间。
回复 支持 反对

使用道具 举报

板凳
 楼主| 发表于 2011-7-19 21:13:45 | 只看该作者
zouquan 发表于 2011-7-19 16:48
赞,
没见过454的原始数据,我拿到的就是一个fasta文件和一个对应的qual文件,qual文件是fasta中每一位的质 ...

NCBI的SRA上的数据都有原始数据。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-27 10:32 , Processed in 0.071455 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表