MAFFT安装及使用-mafft v7.520(bioinfomatics tools-004)

MAFFT安装及使用-mafft v7.520(bioinfomatics tools-004)多序列比对是生物信息学的一个重要研究内容 比对结果高度依赖于比对工具的参数设置 包括空位罚分 GOP 和 GEP 以及替换矩阵

大家好,欢迎来到IT知识分享网。

生物序列数据分析是生物信息学的核心任务,是了解生物大分子结构和功能、生物进化历程中联系和差异的主要途径。由于测序技术迅猛发展,产生了大量的核苷酸等生物序列数据,同时随着千人基因组和地球生物基因组计划的开展,越来越需要提升序列分析算法处理能力。生物序列分析中多序列比对(Multiple Sequences Alignment,MSA)是其中重要的研究问题,其分析结果可为后续的序列保守区域和功能模体的识别和量化、估计序列之间的进化差异、祖先序列的分析提供更多的生物信息。 

01 背景介绍

多序列比对是生物信息学中最基本的应用工具,其在蛋白质结构预测分析、基因识别、构建生物进化树等领域中都有广泛的应用。它是一个NP-完全问题,随着序列长度和条数的增多,时空复杂性急剧上升,如何设计一个具有高精度高速度且低复杂度的多序列比对算法成为生物信息学中非常具有挑战性的一个重要课题。

1.1 算法原理

多序列比对有两个重要的参数:替换矩阵(substitution matrix)和空位罚分(gap penalties,包括开启空位和延续空位)。有很多学者相继讨论过这些参数,比如Thompson等人根据序列的进化距离选用不同的替换矩阵,考虑亲水残基,提出特定残基位置的空位罚分等人讨论了多序列比对中PAM矩阵的PAM距离与空位罚分的关系式;Madhusudhan等应用动态规划算法根据序列结构提出可变罚分公式VGP。但是这些公式并没有被广泛应用,说明它们不具有通用性,Gondro等人认为空位罚分参数仍然凭经验给出,如何确定最佳的参数至今没有理论框架,因此当前大多数文献的目标函数参数仍然采用经验值。

1.2 软件开发

当前有很多学者根据多序列比对的原理开发了非常方便好用的开源在线比对工具,如CLUSTALWT-COFFEEMAFFT等,应用这些比对工具能快速得到较好的比对结果,成为当前多序列比对最常用的比对方式。但是,这些结果对空位罚分与计分矩阵等参数的依赖性很强,不同参数下得到的结果不一样,绝大多数用户在应用这些比对工具时使用单一的默认参数,这些默认参数虽然能得出较好的比对结果,但未必是最好的比对结果。另外,目前尚没有有效的方法直接确定最优参数值,故很难直接通过在线工具得到局部最优解。Pais等人总结了各种常用的多序列比对方法和工具的比对效率,如CLUSTALW、CLUSTALOMEGA、DIALIGN-TX、MAFFTMUSCLE、POA、Probalign、Probcons和T-Coffee,认为T-Coffee和MAFFT可以更快速高效地比对序列。Nuin等比较这九种常用比对工具:Clustal W、Dialign2.2、T-Coffee、POA、Muscle、Mafft、Prob Cons、Dialign-T和Kalign,并得出下面结论:九种比对软件中,MAFFT的迭代方法(L-INS-i)和Prob Cons工具始终是最准确的,并且MAFFT是两者中较快的比对工具。Ahola等提出了基于一种统计分数来评估多序列比对的结果,以BAli BASE作为标准数据库,比较了7种比对方法的AQ得分,结果表明,MAFFT的L-INS-i方法优于其他方法。他们的权威结论都被归纳在MAFFT官方网页中。多序列比对的计算效率需要综合考虑速度和精度,MAFFT设定FFT-NS-2为默认迭代算法,然而,随着计算机科学的高速发展,多序列比对的重心也从追求高速度转为追求高精度,因此本研究以MAFFT作为比对工具,试图寻找替换矩阵、空位罚分及迭代算法的最优参数组合,以得到高精度的比对结果。

1.3 MAFFT横空出世

MAFFT比对工具起初是为了执行大规模序列比对而发展起来的,它是一种基于快速傅里叶变换(FFT)的组对组的比对算法,并且它使用一种近似距离计算方法(6mer方法)便于进行快速计算。MAFFT提供了多种多序列比对策略,这些比对策略可以划分成三大类:(1)渐进方法(the progressive method);(2)基于WSP分数的迭代细化方法(the iterative refinement method with the WSP score);(3)基于WSP和一致性分数的迭代细化方法(the iterative refinment method using both the WSP and consistency scores)。通常,MAFFT策略需要在速度和精度之间折中考虑,上述三类方法的速度顺序为a>b>c,然而精度顺序为a<b<c。

MAFFT的默认参数如下:使用的算法是FFT-NS-2,GOP是1.53,GEP是0.123,矩阵是BLO SUM62。

MAFFT安装及使用-mafft v7.520(bioinfomatics tools-004)

02 参考
https://mafft.cbrc.jp/alignment/software/ #官网
03 安装
#下载安装包 wget -c https://mafft.cbrc.jp/alignment/software/mafft-7.520-linux.tgz #解压 tar -zxvf mafft-7.520-linux.tgz #改名 mv mafft-linux64 mafft cd mafft #改名,使之成为常用名 chmod a+x ./mafft.bat mv mafft.bat mafft
04 使用

操作手册

Usage % mafft [arguments] input > output An alias for an accurate option (L-INS-i) for an alignment of up to ∼200 sequences × ∼2,000 sites: % mafft-linsi input > output A fast option (FFT-NS-2) for a larger sequence alignment: % mafft input > output If not sure which option to use, % mafft --auto input > output

简易版本

./mafft --help MAFFT v7.520 (2023年3月22日) https://mafft.cbrc.jp/alignment/software/ MBE 30:772-780 (2013年), NAR 30:3059-3066 (2002年) 高速模式: % mafft 输入文件 > 输出文件 % mafft --retree 1 输入文件 > 输出文件 (快速) 高精度模式 (适用于少于约200个序列 x 每个序列少于约2000个氨基酸/核苷酸): % mafft --maxiterate 1000 --localpair 输入文件 > 输出文件 (% linsi 输入文件 > 输出文件 也可以) % mafft --maxiterate 1000 --genafpair 输入文件 > 输出文件 (% einsi 输入文件 > 输出文件) % mafft --maxiterate 1000 --globalpair 输入文件 > 输出文件 (% ginsi 输入文件 > 输出文件) 如果不确定使用哪个选项: % mafft --auto 输入文件 > 输出文件 --op # : 开口罚分,默认值: 1.53 --ep # : 偏移量(类似于延伸罚分),默认值: 0.0 --maxiterate # : 最大迭代次数,默认值: 0 --clustalout : 输出格式: clustal格式,默认值: fasta --reorder : 输出顺序: 根据对齐排序,默认值: 输入顺序 --quiet : 不显示进度报告 --thread # : 线程数(如果不确定,使用 --thread -1) --dash : 添加结构信息 (Rozewicki et al, 已提交)
05 常用命令行
#交互式 ./mafft.bat --------------------------------------------------------------------- MAFFT v7.467 (2020/May/14) MBE 30:772-780 (2013), NAR 30:3059-3066 (2002) https://mafft.cbrc.jp/alignment/software/ --------------------------------------------------------------------- Input file? (FASTA format; Folder=/somewhare/mafft-linux64) @ input.txt #命令行 mafft.bat input.fa > output.fa --auto #automatic 自动匹配 #--auto #自动匹配,缺省参数,这个最快最省事! 

mafft作为比对最有效率的程序之一,在序列比对中具有独特优势,常与raxmliqtree2等程序连用,提高构建系统进化树效率。

还记得老师拿着系统进化分析忽悠你,会用MEGA嘛?了解软件才能游刃有余,不被器具所支配,而是使用器具!

06 参考文献

刘欢. 生物多序列比对方法及其关键技术研究[D].中国科学技术大学,2023.

李满枝,龙海侠,王洪涛等.基于MAFFT的多序列比对最优参数的确定[J].基因组学与应用生物学,2016,35(07):1668-1674.DOI:10.13417/j.gab.035.001668.

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/131468.html

(0)
上一篇 2025-08-07 19:33
下一篇 2025-08-07 20:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信