MEGA构建系统进化树的步骤(以MEGA7为例) 下载本文

内容发布更新时间 : 2024/5/4 17:03:35星期一 下面是文章的全部内容请认真阅读。

MEGA构建系统进化树的步骤(以MEGA7为例)

本文是看中国慕课山东大学生物信息学课程总结出来的

分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。

1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致 ( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。

2. 打开MEGA软件,选择主窗口的”File” → “Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。

3. 在打开的Alignment Explorer窗口中选择”Alignment”“Align by -ClustalW” 进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),弹出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。

4. 之后,弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。

了解两个参数:

① 替换记分矩阵,替换记分矩阵是反映残基之间相互替换率的矩阵,也就是说,它描述了残基两两相似的量化关系。DNA 序列有 DNA 序列的替换记分矩阵,蛋白质序列有蛋白质序列的替换记分矩阵,两者不可混用。

DNA 序列的替换记分矩阵主要有三种:1)等价矩阵。相同核苷酸得分为 1,不同核苷酸间的替换得分为 0。由于不含碱基的理化信息和不区别对待不同的替换,一般只用于理论计算。 2)转换-颠换矩阵。转换:DNA分子中的嘌呤被嘌呤或嘧啶被嘧啶替换。颠换:DNA分子中的嘌呤被嘧啶或嘧啶被嘌呤替换。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,转换-颠换矩阵中,转换的得分比颠换要高为-1 分,而颠换的得分为-5 分。 3)BLAST 矩阵。经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5 分,不相同为-4 分,这时比对效果最好。这个矩阵广泛地被 DNA 序列比较所采用。没有为什么,就是好,实践经验所得。因为这个矩阵最早应用于 BLAST 工具,因此得名 BLAST 矩阵。

蛋白质的替换记分矩阵要比核酸的复杂一些: 1)等价矩阵。相同得 1 分,不同得 0 分。 2)PAM矩阵。基础的 PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值,是基于相似度>85%的序列产由统计方法计算得到的。由PAM-1 自乘 n 次可以外推得到 PAM-n ,表示发生了更多次突变。如果序列亲缘关系远,也就是说序列间会有很多突变,那就选 PAM 后面跟一个大数字的矩阵;如果亲缘关系近,也就是突变比较少,序列间大多数地方都是一样的,那就选 PAM 后面跟一个小数字的矩阵。3)BLOSUM矩阵。后面也有一个编号,是通过对大量符合特定要求的序列计算而来的。比如BLOSUM62是指这个矩阵是由一致度≥62%的序列计算得到的。如果序列亲缘关系远,序列相似度低,那就选BLOSUM 后面跟一个小数字的矩阵;如果序列亲缘关系近,序列相似度高,那就选BLOSUM 后面跟一个大数字的矩阵。总结,亲缘关系较近的序列之间的比较,用 PAM 数小的矩阵或BLOSUM 数大的矩阵;而亲缘关系较远的序列之间的比较,用 PAM 数大的矩阵或 BLOSUM数小的矩阵。对于关系较远的序列之间的比较,由于 PAM250 是通过矩阵自乘推算而来的,所以其准确度受到一定限制。相比之下BLOSUM 矩阵更具优势。对于关系较近的序列之间的比较,用 PAM 或 BLOSUM 矩阵做出的比对结果,差别不大。如果关于要比较的序列不知道亲缘关系远近,那么就闭着眼睛用BLOSUM62 吧!如果你记

不住或者听不懂上面讲的种种,那就记住 BLOSUM62 这个名字,也可以走遍天下全不怕!

图1:氨基酸差异与矩阵编号对照

图2: 序列亲缘关系远近与矩阵的选择 ② 空位罚分包括两种: gap 开头(gap open)和gap延长(gap

extend)。默认gap开头罚分高,gap延长罚分低,这样得出的结果gap很集中,有很多长串出现的gap,这可以比对两条很相似的序列--同源序列;相反,如果gap开头罚分少,gap延长罚分高,比对结果gap就比较分散,极少出现连续长串的gap(可以想象其中的原因,总是要保证得分高),这可以比对两条绝大部分序列都很相似,但其中一条的一个功能区在另一条序列中是缺失的两条序列,可以找出这个功能区。

5. 比对过程是先进行双序列比对,在进行多序列比对,最后会出现一个多序列比对结果。将之作为中间结果保存下来。在Alignment Explorer窗口中选择“Data”→“Export Alignment”→“MEGA Format”。这里一定选择MEGA format以方便MEGA后续分析(其他格式适用于其他软件的分析),MEGA自动赋予“.meg”后缀名,保存后,