机器学习和生物信息学实验室联盟
标题:
BENCH: 多序列比对参考数据集及评分方法
[打印本页]
作者:
shixiang
时间:
2017-9-7 11:12
标题:
BENCH: 多序列比对参考数据集及评分方法
BENCH(
http://www.drive5.com/bench/
)是一个多序列比对(Multiple sequence alignment,MSA)参考数据集,包含11个蛋白质MSA数据库和2个DNA MSA数据库,及参考比对结果(即比较理想的比对结果,你的比对结果与此越相似,则评分越高)。BENCH的优点是收录了比较多的常见数据库,并包含了主流的MSA软件对其评分,有很好的参考价值。
BENCH的信息描述:
1. 数据集格式:
全部为fasta格式;
2. 数据库数量:
2个DNA数据库,11个蛋白质数据库,规模都在几兆~几十兆之间,属于小规模数据集;每个数据库就是一个文件夹,每个文件夹下有很多文件,每个文件是一个序列family(即相似序列,每个family含几十~几百条序列),比对时要每个文件独立比对、评分,不可以混在一起。
3. 评分:
自带的计算积分的小工具由于可能有点老,放在我们的ubuntu 16上的gcc下编译有兼容性问题,修改好后很好使。这个小程序可以计算4种比对得分:
Q (就是Sum pairs score,SPS),比对结果与参考集中正确对齐的对数与参考集中对齐对数之比;
TC (就是TCS,total column score),比对结果与参考集中正确对齐的列数与参考集中对齐列数之比;
Modeler (Sauder et al. Modeler score),比对结果与参考集中正确对齐的对数与自己的MSA结果中对齐对数之比;
Cline (Shift score),Cline提出来的计算方法(
论文
),计算比较复杂。基本原理是如果一对字符串不匹配,那么在参考集中进行shift滑动遍历,直到找完该样本所有能匹配上的字符。然后计算滑动代价,就是这个得分。
这里我简单介绍如何计算Q(其他评分方法可以触类旁通),例如:
[attach]3475[/attach]
计算Q是逐个样本计算的,每个样本都要和其他所有样本计算得分,匹配得1分,否则0分,最后加和算占比。对于“>1”,要分别和“>2”和“>3”计算得分,以此类推。对于“>1”和“>2”的计算,分别在两个结果中查找,从有字符的地方匹配,红色框是第一次匹配,得1分;绿色框是第2次匹配,得1分;蓝色框是第3次匹配,得1分,共3分。对于“>1”和“>3”的计算,没有匹配,得0分,Q1为3分/6次匹配=0.5分。类似地,Q2=0.5分,Q3=0分。因此Q=(Q1+Q2+Q3)/3=0.333分。当然,这个分数越接近1,比对效果越好。
4. qscore下载
BENCH网站提供的qscore源码在ubuntu16上编译时有兼容性问题,这里已经做了修改,附件中有编译好的qscore,可以在ubuntu上直接运行。
基本命令是:
./qscore -test testMSA.fasta -ref refMSA.fasta
-test后是要评估的MSA比对结果,fasta格式;-ref 后是参考比对结果,fasta格式。
更多参数可以
./qscore -h
查看。
下载编译好的qscore及源码:[attach]3473[/attach]
作者:
chaojiannan
时间:
2019-7-3 21:36
本帖最后由 chaojiannan 于 2019-7-10 23:16 编辑
编译了windows版
欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/)
Powered by Discuz! X3.2