机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2451|回复: 0
打印 上一主题 下一主题

使用PSI-BLAST查询蛋白质序列,统计混淆矩阵

[复制链接]
跳转到指定楼层
楼主
发表于 2016-3-24 11:16:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
准备工作:
1. Java开发环境
2. 装有Blast-2.2.28版本的PC或服务器(这里使用206服务器)
3. CD-HIT聚类后得到的fasta蛋白质序列文件pos_TATA90.fasta;neg_TATA90.fasta

步骤:
1. 将使用CD-HIT聚类之后的正反例fasta文件(pos_TATA90.fasta;neg_TATA90.fasta),分别修改一下每条序列的名字,使得从名字就能一下看出是正反例,然后把正反例合并在一起(prefix_TATA90.fasta)。附件含参考程序:ChangeName.java

2. 用合并在一起的fasta文件(prefix_TATA90.fasta)当成数据库,每一条序列依次当成查询文件,用PSI-BLAST进行查询,肯定自己和自己得分最高,得分第二高的如果和查询序列类别相同(同是正例,或同是反例),则正确,反之则错误。
i. putty登陆206服务器,进入Blast-2.2.28中的bin路径,输命令:
  1. makeblastdb -in prefix_TATA90.fasta -dbtype prot
复制代码
  1. psiblast -query prefix_TATA90.fasta -db prefix_TATA90.fasta -out output.txt -evalue 10 -outfmt 6
复制代码

3. 将output.txt下载下来后,理解文件结果的意义。

4. 统计正例与反例查询的混淆矩阵。附件含参考程序:MixMatrix.java
统计结果:
  1. \        pos        neg
  2. pos        557        0
  3. neg        0        8239
  4. 还有114个只有一条情况,正例1条,反例113条
复制代码


附件(附件上传抽筋,Github抽风,于是上云盘~):
百度云链接:http://pan.baidu.com/s/1bb7Pjo 密码:u6hh

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-1 22:42 , Processed in 0.066591 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表