机器学习和生物信息学实验室联盟

标题: 使用PSI-BLAST查询蛋白质序列，统计混淆矩阵 [打印本页]

作者: shixiang 时间: 2016-3-24 11:16
标题: 使用PSI-BLAST查询蛋白质序列，统计混淆矩阵
准备工作：
1. Java开发环境
2. 装有Blast-2.2.28版本的PC或服务器（这里使用206服务器）
3. CD-HIT聚类后得到的fasta蛋白质序列文件pos_TATA90.fasta；neg_TATA90.fasta

步骤：
1. 将使用CD-HIT聚类之后的正反例fasta文件（pos_TATA90.fasta；neg_TATA90.fasta），分别修改一下每条序列的名字，使得从名字就能一下看出是正反例，然后把正反例合并在一起（prefix_TATA90.fasta）。附件含参考程序：ChangeName.java
[attach]2370[/attach]
2. 用合并在一起的fasta文件（prefix_TATA90.fasta）当成数据库，每一条序列依次当成查询文件，用PSI-BLAST进行查询，肯定自己和自己得分最高，得分第二高的如果和查询序列类别相同（同是正例，或同是反例），则正确，反之则错误。
i. putty登陆206服务器，进入Blast-2.2.28中的bin路径，输命令：

makeblastdb -in prefix_TATA90.fasta -dbtype prot

复制代码

psiblast -query prefix_TATA90.fasta -db prefix_TATA90.fasta -out output.txt -evalue 10 -outfmt 6

复制代码

3. 将output.txt下载下来后，理解文件结果的意义。
[attach]2371[/attach]
4. 统计正例与反例查询的混淆矩阵。附件含参考程序：MixMatrix.java
统计结果：

\ pos neg
pos 557 0
neg 0 8239
还有114个只有一条情况，正例1条，反例113条

复制代码

附件（附件上传抽筋，Github抽风，于是上云盘~）：
百度云链接：http://pan.baidu.com/s/1bb7Pjo 密码：u6hh

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)