|
序列比对软件及blast
[ 2006-10-19 9:21:00 | By: distar ]
比对算法的种类
全局比对
寻找在全长范围内寻找最佳比对。
Needleman-Wunsch algorithm
局部比对
寻找局部区域的最高比对打分,这决定了局部比对的实际应用更加广泛。
Smith-Waterman algorithm
软件blast,fasta等
Blast概述
Blast,全称Basic Local Alignment Search Tool,即“基于局部比对算法的搜索工具”,由Altschul等人于1990年发布。Blast能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对比对区域进行打分以确定同源性的高低。Blast具有较快的比对速度和较高的比对精度,适用于多种序列比对的情况,在常规双序列比对分析中应用最为广泛。可以毫不夸张的说,blast是做比较基因组学乃至整个生物信息学研究所必须掌握的一种比对工具。
Blast种类
Blast是一个集成的程序包,通过调用不同的比对程序,blast实现了五种可能的序列比对方式:
Blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。
Blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),再与蛋白库做比对。
Blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。
Tblastn:蛋白序列对核酸库的比对,将库中的核酸序列翻译成蛋白序列,比对蛋白序列的同源性。
Tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序。
Blastclust:通过blast聚类。
EGABLAST :主要用来鉴定一段核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。
Discontiguous MEGABLAST 和 Nucleotide-nucleotide BLAST (blastn) :两者都是侧重于用来比对序列同源性的,但是所用算法不同,所以Discontiguous MEGABLAST 的灵敏度(sensitivity)更高,用于更精确的比对。
Search for short nearly exact matches:主要用于引物片断和较短核酸序列的比对,设计引物的时候,常常会用到这个比对程序。
Search trace archives with megablast or discontiguous megablast:用来查找别与比对序列相关的原始未加工序列信息,其数据库主要由全基因组鸟枪打靶,BAC 末端序列和 EST 序列构成。
PatternHUnter的目标是找出以前的程序在遇到大的序列比较时所发生的明显错误。(与blastn,megablast的区别:http://www.dingshengtech.com/products/ph/DBbenchmarks.php)
Blast基本命令(以blastn为例)
Step1:建库
formatdb -i subject.fasta -p F
Step2:运行blast
blastall -i query.fasta -d dubject.fasta -o blast.result -p blastn -e 1e-5
Blast的几个常用参数
-e 期望值,表示了两条序列比对上的区域的整体相似程度。这个 值越小,比对结果越好。命令行中加入此参数则结果中只出现 期望值小于输入设定值的结果。
-F 过滤参数,将序列中的简单重复过滤不比。缺省值是TRUE, 如键入“-F F”,blast就不会过滤简单重复。
-m8 输出结果采用列表形式
许多人弄不清,输出行上的Score ,expect,P(N)何意?
Score = ,用打分表BLOSUM-62 ,Score in bits = ,?=0.319 ,k = 0.133,,稍有变化。expect简称E-value ,已经考虑了数据库的因素。其意义是:当用咨询序列搜索一个数据库(如非冗余的SwissProt ,现有77419 条序列,共27864727残基),纯由机会击中对象的平均数。例如E=1 ,表示在目前大小的数据库中,纯由机会搜到的对象数平均值为1 。而P(N)指N 个最高分匹配段的分数和纯由机会超过域值的概率。这些P 与E 有关系式P=1-e-E 。如何计算这些Score, Expect和P(N),须有较专门的统计数学的知识。对一般用户,乃须知道它们的含义。
BLAT
BLAT——The Blast Like Alignment Tool
基本命令:
blat database.fasta query.fasta output.psl
主要用途:
适用于较大运算量并且需要找共线性的序列比对
BLAT结果用图形输出可以通过psl2gff.pl以及gff2ps实现。
先安装gawk;
然后:
psl2gff.pl output.sql output.gff
gff2ps output.gff > output.ps
gff2ps -C brown.a4.rc output.gff >output.ps(此时ps矢量图输出经过brown.a4.rc预处理)
psl2gff.pl[is available to convert the PSL format (BLAT) to GFF format]可从http://www.sanger.ac.uk/Software/formats/GFF/下载
Repeatmasker: 屏蔽重复序列
安装(Installation):
download crossmatch
and put crossmatch in /usr/local
then do the following procedure:
1. Download RepeatMasker
Latest Version Released 10/6/2006: RepeatMasker-open-3-1-6.tar.gz
2. Unpack Distribution
Unpack the distribution in your home directory or in a location where it may be shared with other users of your system ( ie. /usr/local/ ).
* cp RepeatMasker-open-3-#-#.tar.gz /usr/local
* cd /usr/local
* gunzip RepeatMasker-open-3-#-#.tar.gz
* tar xvf RepeatMasker-open-3-#-#.tar
3. Install RepeatMasker Libraries
Download the libraries from http://www.girinst.org and unpack in the RepeatMasker program directory. This version supports the following libraries ( it is always best to use the most current ): repeatmaskerlibraries-20061006.tar.gz and later.
* cp repeatmaskerlibraries-20061006.tar.gz /usr/local/RepeatMasker/
* cd /usr/local/RepeatMasker
* gunzip repeatmaskerlibraries-20061006.tar.gz
* tar xvf repeatmaskerlibraries-20061006.tar
* rm repeatmaskerlibraries-20061006.tar
4. Run Configure Script
The program requires some configuration before use. There is now a script which assists in making these changes.
* cd /usr/local/RepeatMasker
* perl ./configure
CROSS_MATCH
cross_match本身是一个比对软件,去载体是它其中的一项功能。
基本命令:
cross_match query.seq database.seq -alignments >out
其他软件
除了以上两种最常用的比对软件,常用的双序列比对软件还有blastz、cross_match、genewise等;多序列比对软件有clustalW等等。
序列比对软件说明比较好的一个网站:
http://bioinformatics.ubc.ca/res ... hp?name=bioperl#top
进化分析软件比较全:http://evolution.genetics.washington.edu/phylip/software.html
进化树观看软件:
http://phylogenomics.us/atv/
BLASTCLUST使用说明:
http://www.pdg.cnb.uam.es/cursos ... tAndClus/index.html
blastclust manually:
use cpus: 4
inputfile: proteins.fsa
outputfile: cluster_60_80_complete.ssv
protein identity: >60%
coverage: >80%
blastclust -a 4 -i proteins.fsa -o cluster_60_80_complete.ssv -S 60 -L 0.80 -e F
if blastclust -a 4 -i proteins.fsa -o cluster_60_80_complete.ssv -S 60 -L 0.80 -e F -p F
then the input file is nucleotides, not proteins
MUSCLE(global align) uses two types of similarity measure: the fractional identity D computed from a global alignment of the two sequences, and measures obtained by k-mer counting.(http://www.biomedcentral.com/1471-2105/5/113)
|
|