机器学习和生物信息学实验室联盟

标题: BENCH: 多序列比对参考数据集及评分方法 [打印本页]

作者: shixiang    时间: 2017-9-7 11:12
标题: BENCH: 多序列比对参考数据集及评分方法
BENCH(http://www.drive5.com/bench/)是一个多序列比对(Multiple sequence alignment,MSA)参考数据集,包含11个蛋白质MSA数据库和2个DNA MSA数据库,及参考比对结果(即比较理想的比对结果,你的比对结果与此越相似,则评分越高)。BENCH的优点是收录了比较多的常见数据库,并包含了主流的MSA软件对其评分,有很好的参考价值。

BENCH的信息描述:

1. 数据集格式:全部为fasta格式;

2. 数据库数量:2个DNA数据库,11个蛋白质数据库,规模都在几兆~几十兆之间,属于小规模数据集;每个数据库就是一个文件夹,每个文件夹下有很多文件,每个文件是一个序列family(即相似序列,每个family含几十~几百条序列),比对时要每个文件独立比对、评分,不可以混在一起。

3. 评分:自带的计算积分的小工具由于可能有点老,放在我们的ubuntu 16上的gcc下编译有兼容性问题,修改好后很好使。这个小程序可以计算4种比对得分:


这里我简单介绍如何计算Q(其他评分方法可以触类旁通),例如:
[attach]3475[/attach]

计算Q是逐个样本计算的,每个样本都要和其他所有样本计算得分,匹配得1分,否则0分,最后加和算占比。对于“>1”,要分别和“>2”和“>3”计算得分,以此类推。对于“>1”和“>2”的计算,分别在两个结果中查找,从有字符的地方匹配,红色框是第一次匹配,得1分;绿色框是第2次匹配,得1分;蓝色框是第3次匹配,得1分,共3分。对于“>1”和“>3”的计算,没有匹配,得0分,Q1为3分/6次匹配=0.5分。类似地,Q2=0.5分,Q3=0分。因此Q=(Q1+Q2+Q3)/3=0.333分。当然,这个分数越接近1,比对效果越好。

4. qscore下载

BENCH网站提供的qscore源码在ubuntu16上编译时有兼容性问题,这里已经做了修改,附件中有编译好的qscore,可以在ubuntu上直接运行。

基本命令是:./qscore -test testMSA.fasta -ref refMSA.fasta
-test后是要评估的MSA比对结果,fasta格式;-ref 后是参考比对结果,fasta格式。
更多参数可以./qscore -h查看。

下载编译好的qscore及源码:[attach]3473[/attach]



作者: chaojiannan    时间: 2019-7-3 21:36
本帖最后由 chaojiannan 于 2019-7-10 23:16 编辑

编译了windows版




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2