GenBank (*.gb, *.gbk, *.gbff) 格式转 GFF (*.gff)格式

GenBank (*.gb, *.gbk, *.gbff) 格式转 GFF (*.gff)格式用 BioPython 是一个不错的选择 保存的格式可以更加个性化 但是需要一定的编程基础 但是用下来感觉出来的格式不太好 出来的 GFF 格式仍然包含序列信息 而且缺少父母 Parent 关系 无法输

大家好,欢迎来到IT知识分享网。

  • GenBank 格式是 NCBI 开发的一种能同时包含序列信息和注释信息的文件格式,一般后缀为 .gbff。
GenBank (*.gb, *.gbk, *.gbff) 格式转 GFF (*.gff)格式
NCBI Genome 中 GBFF 的下载选项标题
  • GFF 格式是更为通用的基因结构注释文件格式,一般仅包含基因结构的位置信息,常见后缀为 .gff、.gff3 。
  • 在网上找了一圈,感觉将 GenBank 格式转为 GFF 格式的现成工具并不多,有一个是 genbank_to,但是用下来感觉出来的格式不太好,出来的 GFF 格式仍然包含序列信息,而且缺少父母(Parent)关系,无法输入到 gffread 中使用。
  • 用 BioPython 是一个不错的选择,保存的格式可以更加个性化,但是需要一定的编程基础;最终下来发现还是用 BioPerl 的bp_genbank2gff3.pl脚本来转换出来的格式比较满意。
GenBank (*.gb, *.gbk, *.gbff) 格式转 GFF (*.gff)格式
标题 BioPerl 转换出来的 GFF 格式
  • 使用方法(这里使用 Conda 安装,不需要倒腾 Perl)
# 建议新建一个环境来安装 BioPerl, 装在 base 容易出问题 mamba create -n Perl perl-bioperl perl-yaml # 从 CPAN 官网下载脚本 wget https://fastapi.metacpan.org/source/CJFIELDS/BioPerl-1.7.8/bin/bp_genbank2gff3 -O bp_genbank2gff3.pl # 进入 Conda 环境使用 conda activate Perl perl bp_genbank2gff3.pl your_genbank_file.gbff # 运行完成后会在相同位置生成一个 gff 文件

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/152622.html

(0)
上一篇 2025-03-08 13:45
下一篇 2025-03-08 14:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信