机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 10615|回复: 5
打印 上一主题 下一主题

GFF3注释文件

[复制链接]
跳转到指定楼层
楼主
发表于 2012-4-23 09:05:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
GFF3是GFF注释文件的新标准。文件中每一行为基因组的一个属性,分为9列,以TAB分开。 依次是:
1. reference sequence:参照序列 指出注释的对象。如一个染色体,克隆或片段。可以有多个参照序列。
2. source :来源 注释的来源。如果未知,则用点(.)代替。
3. type :类型 属性的类型。建议使用符合SO惯例的名称(sequence ontology,参看[[Sequence Ontology Project]]) ,如gene,repeat_region,exon,CDS等。
4. start position :起点 属性对应片段的起点。从1开始计数。
5. end position :终点 属性对应片段的终点。一般比起点的数值要大。
6. score :得分 对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。
7. strand :链 “+”表示正链,“-”表示负链,“.”表示不需要指定正负链。
8. phase :步进 对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0,1或2,表示到达下一个密码子需要跳过的碱基个数。 对于其它属性,则用点(.)代替。
9. attributes :属性 一个包含众多属性的列表。格式为“标签=值”(tag=value)。不同属性之间以分号相隔。可以存在空格,不过若有“,=;”则用URL转义(URL escaping rule),同时TAB也需要转换为“%09”表示。 下列的标签已定义: ID 指定一个唯一的标识。对属性分类是非常好用(例如查找一个转录单位中所以的外显子)。 Name 指定属性的名称。展示给用户的就是该属性。 Alias 名称的代称或其它。当存在其它名称时使用该属性。

来源:http://bio-spring.info/wp/?tag=gff3
参考:http://www.sequenceontology.org/gff3.shtml
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
 楼主| 发表于 2012-8-27 15:57:19 | 只看该作者
如何将BLAST的结果转化为gff3格式呢?

用以下perl脚本

注意,blast的结果要-m 8输出

然后如下图运行即可

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

板凳
发表于 2013-3-19 14:56:25 | 只看该作者
本帖最后由 cwc 于 2013-6-18 15:59 编辑

如果是blast+的版本,输入的参数则为-outfmt 6或者7,也就是输出tabular格式。
回复 支持 反对

使用道具 举报

地板
 楼主| 发表于 2013-3-27 07:21:08 | 只看该作者
http://www.sequenceontology.org/

请大家关注这个网站
回复 支持 反对

使用道具 举报

5#
发表于 2013-6-18 14:18:47 | 只看该作者
本帖最后由 xmubingo 于 2013-6-18 14:26 编辑

转换GFF工具–大汇总
http://boyun.sh.cn/bio/?p=1827

汇总,将各种格式转换为GFF格式的脚本。这些脚本分散在不同的软件包中,可以根据需要下载使用。

bioPerl

search2gff              This script will turn a protein Search report (BLASTP, FASTP, SSEARCH, AXT, WABA) into a GFF File.
genbank2gff3.pl       — Genbank->gbrowse-friendly GFF3
gff2ps                    This script provides GFF to postscript handling.
gbrowse

ucsc_genes2gff Convert UCSC Genome Browser-format gene files into GFF files suitable for loading into gbrowse
http://search.cpan.org/~lds/GBrowse-2.39/bin/bed2gff3.pl
blast92gff3.pl BLAST tabular output (-m 9 or  conversion to GFF version 3 format,
http://eugenes.org:7072/gmod/genogrid/scripts/
DAWGPAWS

http://dawgpaws.sourceforge.net/man/cnv_blast2gff.html

cnv_blast2gff.pl This program will translate a blast report for a single query sequence into the GFF format.
ubuntu

sim2gff
ali2gff
blat2gff
gff2aplot
parseblast
Tandy software

http://eugenes.org/gmod/tandy/http://iubio.bio.indiana.edu:7122/gmod/tandy/

gff2aplot  — a program to visualize the alignment of two genomic sequences together with their annotations. From GFF-format input files it produces PostScript figures for that alignment.
blat2gff Converts BLAT output files to GFF formatted files,
blat2gff < inputfile > outputfile


BioWiki中还有一篇,总结更多GFF工具的文章,请参看下面链接:
http://biowiki.org/GffTools


GFF3
英文解释:http://gmod.org/wiki/GFF3

中文解释:http://bio-spring.info/wp/?tag=gff3
回复 支持 反对

使用道具 举报

6#
发表于 2013-9-11 21:23:19 | 只看该作者
对于将blast的xml格式的输出转化成gff3的,可以先将其转化成tab格式的,然后使用blast92gff3.pl转化成gff3格式的。xml--->tab的可以使用一个开源工具biopython,Bio/Blast/NCBIXML.py可以识别xml文档,然后自己写程序转化一下就可以了。参考程序:
  1. import sys
  2. from Bio.Blast import NCBIXML

  3. file_handle = open(sys.argv[1])

  4. blast_records = NCBIXML.parse(file_handle)

  5. #
  6. for record in blast_records:
  7.     #no match
  8.     if(len(record.alignments) == 0):
  9.         continue
  10.     #query_id
  11.     #print 'query id:', record.query_id
  12.     #hit_id
  13.     for align in record.alignments:
  14.         #print 'hit id:', align.hit_id
  15.         # %identities
  16.         for hsp in align.hsps:
  17.             #output all value
  18.             print "%s\t%s\t%f\t%s\t%d\t%s\t%s\t%s\t%s\t%s\t%s\t%s" %(record.query_id, align.hit_id, (hsp.identities*1.0/hsp.align_length*100.0),
  19.             hsp.align_length, (hsp.align_length-hsp.identities), hsp.gaps, hsp.query_start, hsp.query_end, hsp.sbjct_start, hsp.sbjct_end, hsp.expect, hsp.bits)
复制代码
当然这段程序需要安装biopython,有一个说明文档

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-1 08:07 , Processed in 0.088907 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表