机器学习和生物信息学实验室联盟

标题: 使用PSI-BLAST查询蛋白质序列,统计混淆矩阵 [打印本页]

作者: shixiang    时间: 2016-3-24 11:16
标题: 使用PSI-BLAST查询蛋白质序列,统计混淆矩阵
准备工作:
1. Java开发环境
2. 装有Blast-2.2.28版本的PC或服务器(这里使用206服务器)
3. CD-HIT聚类后得到的fasta蛋白质序列文件pos_TATA90.fasta;neg_TATA90.fasta

步骤:
1. 将使用CD-HIT聚类之后的正反例fasta文件(pos_TATA90.fasta;neg_TATA90.fasta),分别修改一下每条序列的名字,使得从名字就能一下看出是正反例,然后把正反例合并在一起(prefix_TATA90.fasta)。附件含参考程序:ChangeName.java
[attach]2370[/attach]
2. 用合并在一起的fasta文件(prefix_TATA90.fasta)当成数据库,每一条序列依次当成查询文件,用PSI-BLAST进行查询,肯定自己和自己得分最高,得分第二高的如果和查询序列类别相同(同是正例,或同是反例),则正确,反之则错误。
i. putty登陆206服务器,进入Blast-2.2.28中的bin路径,输命令:
  1. makeblastdb -in prefix_TATA90.fasta -dbtype prot
复制代码
  1. psiblast -query prefix_TATA90.fasta -db prefix_TATA90.fasta -out output.txt -evalue 10 -outfmt 6
复制代码

3. 将output.txt下载下来后,理解文件结果的意义。
[attach]2371[/attach]
4. 统计正例与反例查询的混淆矩阵。附件含参考程序:MixMatrix.java
统计结果:
  1. \        pos        neg
  2. pos        557        0
  3. neg        0        8239
  4. 还有114个只有一条情况,正例1条,反例113条
复制代码


附件(附件上传抽筋,Github抽风,于是上云盘~):
百度云链接:http://pan.baidu.com/s/1bb7Pjo 密码:u6hh





欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2