机器学习和生物信息学实验室联盟

标题: BENCH: 多序列比对参考数据集及评分方法 [打印本页]

作者: shixiang 时间: 2017-9-7 11:12
标题: BENCH: 多序列比对参考数据集及评分方法
BENCH（http://www.drive5.com/bench/）是一个多序列比对（Multiple sequence alignment，MSA）参考数据集，包含11个蛋白质MSA数据库和2个DNA MSA数据库，及参考比对结果（即比较理想的比对结果，你的比对结果与此越相似，则评分越高）。BENCH的优点是收录了比较多的常见数据库，并包含了主流的MSA软件对其评分，有很好的参考价值。

BENCH的信息描述：

1. 数据集格式：全部为fasta格式；

2. 数据库数量：2个DNA数据库，11个蛋白质数据库，规模都在几兆~几十兆之间，属于小规模数据集；每个数据库就是一个文件夹，每个文件夹下有很多文件，每个文件是一个序列family（即相似序列，每个family含几十~几百条序列），比对时要每个文件独立比对、评分，不可以混在一起。

3. 评分：自带的计算积分的小工具由于可能有点老，放在我们的ubuntu 16上的gcc下编译有兼容性问题，修改好后很好使。这个小程序可以计算4种比对得分：

Q （就是Sum pairs score，SPS），比对结果与参考集中正确对齐的对数与参考集中对齐对数之比；
TC （就是TCS，total column score），比对结果与参考集中正确对齐的列数与参考集中对齐列数之比；
Modeler （Sauder et al. Modeler score），比对结果与参考集中正确对齐的对数与自己的MSA结果中对齐对数之比；
Cline （Shift score），Cline提出来的计算方法（论文），计算比较复杂。基本原理是如果一对字符串不匹配，那么在参考集中进行shift滑动遍历，直到找完该样本所有能匹配上的字符。然后计算滑动代价，就是这个得分。

这里我简单介绍如何计算Q（其他评分方法可以触类旁通），例如：
[attach]3475[/attach]

计算Q是逐个样本计算的，每个样本都要和其他所有样本计算得分，匹配得1分，否则0分，最后加和算占比。对于“>1”，要分别和“>2”和“>3”计算得分，以此类推。对于“>1”和“>2”的计算，分别在两个结果中查找，从有字符的地方匹配，红色框是第一次匹配，得1分；绿色框是第2次匹配，得1分；蓝色框是第3次匹配，得1分，共3分。对于“>1”和“>3”的计算，没有匹配，得0分，Q1为3分/6次匹配=0.5分。类似地，Q2=0.5分，Q3=0分。因此Q=（Q1+Q2+Q3）/3=0.333分。当然，这个分数越接近1，比对效果越好。

4. qscore下载

BENCH网站提供的qscore源码在ubuntu16上编译时有兼容性问题，这里已经做了修改，附件中有编译好的qscore，可以在ubuntu上直接运行。

基本命令是：./qscore -test testMSA.fasta -ref refMSA.fasta
-test后是要评估的MSA比对结果，fasta格式；-ref 后是参考比对结果，fasta格式。
更多参数可以./qscore -h查看。

下载编译好的qscore及源码：[attach]3473[/attach]

作者: chaojiannan 时间: 2019-7-3 21:36
本帖最后由 chaojiannan 于 2019-7-10 23:16 编辑

编译了windows版

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)