MEGA构建系统进化树的步骤(以MEGA7为例)-南京廖华答案网

MEGA构建系统进化树的步骤(以MEGA7为例) 下载本文

内容发布更新时间 : 2026/7/17 0:32:53星期一下面是文章的全部内容请认真阅读。

MEGA构建系统进化树的步骤（以MEGA7为例）

本文是看中国慕课山东大学生物信息学课程总结出来的

分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化，是用它的DNA序列，还是翻译后的蛋白质序列呢？序列的选取要遵循以下原则：1）如果DNA序列的两两间的一致度≥70%，选用DNA序列。因为，如果DNA序列都如此相似，它的蛋白质会相似到看不出区别，这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列，而不选蛋白质序列。2）如果DNA序列的两两间的一致度≤70%，DNA序列和蛋白质序列都可以选用。

1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件，注意：所有序列的方向都要保持一致 ( 5’-3’)。想要做系统发生树先要做多序列比对，然后把多序列比对的结果提交给建树软件进行建树，所以在用MEGA建树时可以输入一个已经比对好的多序列比对，也可以输入一条原始序列，让MEGA先来做多序列比对，再建树（一般我们都是原始序列）。所以我们以后者为例。

2. 打开MEGA软件，选择主窗口的”File” → “Open A File”→找到并打开fasta文件，这时会询问以何种方式打开，我们是原始序列，需要先进行多序列比对，所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。

3. 在打开的Alignment Explorer窗口中选择”Alignment”“Align by -ClustalW” 进行多序列比对（MEGA提供了ClustalW和Muscle两种多序列比对方法，这里选择熟悉的ClustalW），弹出窗口询问“Nothing selected for alignment，Select all？”选择“OK”。

4. 之后，弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样，可以设置替换记分矩阵、不同的空位罚分（罚分填写的是正数，计算时按负数计算）等参数。MEGA的所有默认参数都是经过反复考量设置的，这保证了MEGA傻瓜机全自动档的品质，所以当你无从下手，或者没有什么特别要求的时候，直接点击“OK”，接受这些默认参数，开始多序列比对。

了解两个参数：

① 替换记分矩阵，替换记分矩阵是反映残基之间相互替换率的矩阵，也就是说，它描述了残基两两相似的量化关系。DNA 序列有 DNA 序列的替换记分矩阵，蛋白质序列有蛋白质序列的替换记分矩阵，两者不可混用。

DNA 序列的替换记分矩阵主要有三种：1）等价矩阵。相同核苷酸得分为 1，不同核苷酸间的替换得分为 0。由于不含碱基的理化信息和不区别对待不同的替换，一般只用于理论计算。 2）转换-颠换矩阵。转换：DNA分子中的嘌呤被嘌呤或嘧啶被嘧啶替换。颠换：DNA分子中的嘌呤被嘧啶或嘧啶被嘌呤替换。在进化过程中，转换发生的频率远比颠换高。为了反映这一情况，转换-颠换矩阵中，转换的得分比颠换要高为-1 分，而颠换的得分为-5 分。 3）BLAST 矩阵。经过大量实际比对发现，如果令被比对的两个核苷酸相同时得分为+5 分，不相同为-4 分，这时比对效果最好。这个矩阵广泛地被 DNA 序列比较所采用。没有为什么，就是好，实践经验所得。因为这个矩阵最早应用于 BLAST 工具，因此得名 BLAST 矩阵。

蛋白质的替换记分矩阵要比核酸的复杂一些： 1）等价矩阵。相同得 1 分，不同得 0 分。 2）PAM矩阵。基础的 PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值，是基于相似度＞85%的序列产由统计方法计算得到的。由PAM-1 自乘 n 次可以外推得到 PAM-n ，表示发生了更多次突变。如果序列亲缘关系远，也就是说序列间会有很多突变，那就选 PAM 后面跟一个大数字的矩阵；如果亲缘关系近，也就是突变比较少，序列间大多数地方都是一样的，那就选 PAM 后面跟一个小数字的矩阵。3）BLOSUM矩阵。后面也有一个编号，是通过对大量符合特定要求的序列计算而来的。比如BLOSUM62是指这个矩阵是由一致度≥62%的序列计算得到的。如果序列亲缘关系远，序列相似度低，那就选BLOSUM 后面跟一个小数字的矩阵；如果序列亲缘关系近，序列相似度高，那就选BLOSUM 后面跟一个大数字的矩阵。总结，亲缘关系较近的序列之间的比较，用 PAM 数小的矩阵或BLOSUM 数大的矩阵；而亲缘关系较远的序列之间的比较，用 PAM 数大的矩阵或 BLOSUM数小的矩阵。对于关系较远的序列之间的比较，由于 PAM250 是通过矩阵自乘推算而来的，所以其准确度受到一定限制。相比之下BLOSUM 矩阵更具优势。对于关系较近的序列之间的比较，用 PAM 或 BLOSUM 矩阵做出的比对结果，差别不大。如果关于要比较的序列不知道亲缘关系远近，那么就闭着眼睛用BLOSUM62 吧！如果你记

不住或者听不懂上面讲的种种，那就记住 BLOSUM62 这个名字，也可以走遍天下全不怕！

图1：氨基酸差异与矩阵编号对照

图2: 序列亲缘关系远近与矩阵的选择 ② 空位罚分包括两种： gap 开头（gap open）和gap延长（gap

extend）。默认gap开头罚分高，gap延长罚分低，这样得出的结果gap很集中，有很多长串出现的gap，这可以比对两条很相似的序列--同源序列；相反，如果gap开头罚分少，gap延长罚分高，比对结果gap就比较分散，极少出现连续长串的gap（可以想象其中的原因，总是要保证得分高），这可以比对两条绝大部分序列都很相似，但其中一条的一个功能区在另一条序列中是缺失的两条序列，可以找出这个功能区。

5. 比对过程是先进行双序列比对，在进行多序列比对，最后会出现一个多序列比对结果。将之作为中间结果保存下来。在Alignment Explorer窗口中选择“Data”→“Export Alignment”→“MEGA Format”。这里一定选择MEGA format以方便MEGA后续分析（其他格式适用于其他软件的分析），MEGA自动赋予“.meg”后缀名，保存后，

Word文档下载：MEGA构建系统进化树的步骤(以MEGA7为例).doc

搜索更多:MEGA构建系统进化树的步骤(以MEGA7为例)