|
本帖最后由 RockRabbit 于 2012-3-15 21:11 编辑
改进后,目前不仅限于对microRNA序列的做的BLAST,还可对其他核苷酸序列做BLAST后的结果进行处理。
(1)准备好需要Blast的两个文件。
例如: 我们要在我们的文件中(CDs.txt)寻找与microRNA前体文件(pre-mciroRNA.txt)匹配的序列。则需将CDs.txt命名为query_file.txt, 将pre-mciroRNA.txt命名为 database_file.txt
注意: 我们把blast程序封装到了我们的程序中,若用户想单独使用blast程序,下载网址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.20/。我们用的是版本是blast-2.2.20。具体的blast步骤如下:
A.在做blast之前,先格式化数据库文件 :./formatdb –i CDs.txt –p F –o T
(注意:这边用我们的文件CDs.txt,而不是用pre-microRNA.txt作为数据库文件,是因为一般我们的查询文件较大。另外,-p F 代表的是数据库文件为核苷酸序列,若是蛋白质序列应写为 –p T。)
B.进行BLAST,即对查询文件和数据库文件进行BLAST。
运行命令:./blastall -p blastn –i pre-microRNA.txt -d CDs.txt -o blastout.txt –m 8 -e 1e-10
其中:-m: 比对结果显示格式选项,缺省值为0 ,即pairwise格式。另外还可以根据不同的需要选择1~6等不同的格式。
-o 是输出结果文件,文件名可根据自己随意命名。
-e(数学): 期望值(Expectation value),E值是个统计阈值,缺省值10, 意指比对结果中由于随机偶然性产生的匹配结果不大于10,E值越小结果越可靠。
具体的参数详细说明可见:http://blog.163.com/henry_by/blo ... 820091027104419860/
生成的结果文件是blastout.txt。按照上面的命令输出的结果文件的格式如下图:
(2)去除blast后的冗余。
用我们的delete_BlastAbundent.jar程序。 将第一步准备好的两个文件拷入与这个程序文件所在的当前目录中,目录中应包含以下几个文件。如图:
(a)我们接下来重点介绍如何使用delete_BlastAbundent.jar。
首先,当然前提条件是你的机子安装了java。如果没有的话,可以在网址:http://www.oracle.com/technetwor ... ownload-346242.html 下载。
其次,运行命令:java –jar delete_BlastAbundent.jar n
其中参数设置是:一个变量。
一个变量 n:控制去除我们最后输出的结果文件中相似的序列。数值越高代表我们去除冗余的程度越好,即结果文件中序列间的相似程度越低。其中变量n可控制在 0.0至1.0不等,一般设为0.5。
(b)当然用户也可以根据不同的需求更改参数。
如程序所用到的批处理程序 blast.bat
注意:最好不要任意更改文件名,因为程序封装好了。 可以更改的是 –m 或者 –e。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|