大家好,欢迎来到IT知识分享网。
文章目录
gff
GFF(General Feature Format)是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版(gff3)。
gff文件除gff1以外均由9列数据组成,前8列在gff的3个版本中信息都是相同的,只是名称不同:
第9列attributes的内容存在很大的版本特异性。这9列信息(以gff3为例)分别是:
seqid source type start end score strand strand attributes
- seqid :参考序列的id。
- source:注释的来源。如果未知,则用点(.)代替。一般指明产生此gff3文件的软件或方法。
- type: 类型,此处的名词是相对自由的,建议使用符合SO惯例的名称(sequenceontology),如gene,repeat_region,exon,CDS等。
- start:开始位点,从1开始计数(区别于bed文件从0开始计数)。
- end:结束位点。
- score:得分,对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。
- strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。
- phase :步进。对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过的碱基个数。
- attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。
http://gmod.org/wiki/GFF3
awk分析拟南芥gff文件
示例
gff-version 3 ctg123 . mRNA 1300 9000 . + . ID=mrna0001;Name=sonichedgehog ctg123 . exon 1300 1500 . + . ID=exon00001;Parent=mrna0001 ctg123 . exon 1050 1500 . + . ID=exon00002;Parent=mrna0001 ctg123 . exon 3000 3902 . + . ID=exon00003;Parent=mrna0001 ctg123 . exon 5000 5500 . + . ID=exon00004;Parent=mrna0001 ctg123 . exon 7000 9000 . + . ID=exon00005;Parent=mrna0001
gtf
gtf全称为gene transfer format,主要是用来对基因进行注释,当前所广泛使用的gtf格式为第二版(gtf2)。以下均基于gtf2叙述。
gtf同gff3很相似,也是9列内容,其内容如下:
seqname source feature start end score strand frame attributes
- seqname: 序列的名字。通常格式染色体ID或是contig ID。
- source:注释的来源。通常是预测软件名或是公共数据库。
- start:开始位点,从1开始计数。
- end:结束位点。
- feature :基因结构。CDS,start_codon,stop_codon是一定要含有的类型。
- score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
- strand:链的正向与负向,分别用加号+和减号-表示。
- frame:密码子偏移,可以是0、1或2。
- attributes:必须要有以下两个值:
gene_id value; 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
transcript_id value; 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。
示例
AB000381 Twinscan exon 150 200 . + . gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan exon 300 401 . + . gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan CDS 380 401 . + 0 gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan exon 501 650 . + . gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan CDS 501 650 . + 2 gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan exon 700 800 . + . gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan CDS 700 707 . + 2 gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan exon 900 1000 . + . gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan start_codon 380 382 . + 0 gene_id "AB000381.000"; transcript_id "AB000381.000.1"; AB000381 Twinscan stop_codon 708 710 . + 0 gene_id "AB000381.000"; transcript_id "AB000381.000.1";
基因组注释文件(gtf)数据示例
gff和gtf的区别
gtf2的内容和gff3也是很相似的,区别:
– | gtf2 | gff3 |
---|---|---|
type/feature | 必须注明 | 可以是任意名称 |
attributes | key和value以空格分割 | key和value以“=”隔开 |
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/148862.html