机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1921|回复: 1
打印 上一主题 下一主题

BENCH: 多序列比对参考数据集及评分方法

[复制链接]
跳转到指定楼层
楼主
发表于 2017-9-7 11:12:13 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
BENCH(http://www.drive5.com/bench/)是一个多序列比对(Multiple sequence alignment,MSA)参考数据集,包含11个蛋白质MSA数据库和2个DNA MSA数据库,及参考比对结果(即比较理想的比对结果,你的比对结果与此越相似,则评分越高)。BENCH的优点是收录了比较多的常见数据库,并包含了主流的MSA软件对其评分,有很好的参考价值。

BENCH的信息描述:

1. 数据集格式:全部为fasta格式;

2. 数据库数量:2个DNA数据库,11个蛋白质数据库,规模都在几兆~几十兆之间,属于小规模数据集;每个数据库就是一个文件夹,每个文件夹下有很多文件,每个文件是一个序列family(即相似序列,每个family含几十~几百条序列),比对时要每个文件独立比对、评分,不可以混在一起。

3. 评分:自带的计算积分的小工具由于可能有点老,放在我们的ubuntu 16上的gcc下编译有兼容性问题,修改好后很好使。这个小程序可以计算4种比对得分:
  • Q (就是Sum pairs score,SPS),比对结果与参考集中正确对齐的对数与参考集中对齐对数之比;
  • TC (就是TCS,total column score),比对结果与参考集中正确对齐的列数与参考集中对齐列数之比;
  • Modeler (Sauder et al. Modeler score),比对结果与参考集中正确对齐的对数与自己的MSA结果中对齐对数之比;
  • Cline (Shift score),Cline提出来的计算方法(论文),计算比较复杂。基本原理是如果一对字符串不匹配,那么在参考集中进行shift滑动遍历,直到找完该样本所有能匹配上的字符。然后计算滑动代价,就是这个得分。


这里我简单介绍如何计算Q(其他评分方法可以触类旁通),例如:


计算Q是逐个样本计算的,每个样本都要和其他所有样本计算得分,匹配得1分,否则0分,最后加和算占比。对于“>1”,要分别和“>2”和“>3”计算得分,以此类推。对于“>1”和“>2”的计算,分别在两个结果中查找,从有字符的地方匹配,红色框是第一次匹配,得1分;绿色框是第2次匹配,得1分;蓝色框是第3次匹配,得1分,共3分。对于“>1”和“>3”的计算,没有匹配,得0分,Q1为3分/6次匹配=0.5分。类似地,Q2=0.5分,Q3=0分。因此Q=(Q1+Q2+Q3)/3=0.333分。当然,这个分数越接近1,比对效果越好。

4. qscore下载

BENCH网站提供的qscore源码在ubuntu16上编译时有兼容性问题,这里已经做了修改,附件中有编译好的qscore,可以在ubuntu上直接运行。

基本命令是:./qscore -test testMSA.fasta -ref refMSA.fasta
-test后是要评估的MSA比对结果,fasta格式;-ref 后是参考比对结果,fasta格式。
更多参数可以./qscore -h查看。

下载编译好的qscore及源码:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2019-7-3 21:36:58 | 只看该作者
本帖最后由 chaojiannan 于 2019-7-10 23:16 编辑

编译了windows版

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-23 08:43 , Processed in 0.066454 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表