PAML 中文说明

内容发布更新时间 : 2026/7/25 19:13:45星期一下面是文章的全部内容请认真阅读。

和codeml中序列排列时产生的gap会被识别为缺省数据（如果cleandata=1）。如果cleandata设置为1，那么所有的不明确的数据以及gap数据都会被删除。

2）基因预测：程序codonml只能用于编码序列的分析，所以codonml在运行事是假设序列是预先排列好的外显子，并且序列长度为3的倍数，序列中的第一个核苷酸会被识别为密码子位置1。内含子、居间序列以及其他非编码区域必须事先删除，编码序列也必须事先排列完毕。程序也不能处理那些直接从GeneBank里面下载的数据，就算CDS信息已经确定也不行。这段程序不能用于编码区的预测。

3）在大量数据中寻找构树信息：如前所述，你可以通过其他的软件得到一个树或者几个备选树，然后用他们作为用户树去拟合某个模型。

2、PAML程序的编译以及应用

PAML使用老式且简单的命令行界面。你可以从PAML的网站上下载档案文件（一般来说，这个档案文件的名字时 “PAML*.*.tar.gz”），然后解压缩到本地磁盘上。这个文件适用于所有的操作系统平台，对于Windows用户来说，只需解压即可，对于UNIX或者MAC OS X用户，则需要在运行程序之前编译一下。

2.1 对于Windows用户

Windows的可执行文件放在如下所述的文件夹中：

1）到PAML的网站上（http://abacus.gene.ucl.ac.uk/software/paml.html）下载最近升级的档案文件并存放到本地硬盘上。然后将档案文件解压缩（如用WinZip）到一个特定的文件夹中，例如（D:\\software\\paml\\），记住文件夹的名字。

2）进入命令行模式。可以通过以下方式：“开始-程序-附件”或者“开始-运行”然后在命令框中输入“cmd”然后点击确定。你可以通过右键点击标题栏改变窗口的字体、颜色、大小等。

3）将目录改到PAML的文件夹下。例如你可以输入： d: cd \\software\\paml dir

4）注意，Windows命令以及文件名不区分大小写。“src”文件夹中存放的时一些源文件，“examples”文件夹中存放着各式各样的实例文件，“bin”文件夹中存放着Windows的可执行文件。你可以用Windows Explorer浏览这些文件。如果需要在当前目录下通过默认的控制文件“baseml.ctl”运行baseml程序的话，你可以在命令行中输入这些：

bin\\baseml D:\\software\\paml4\\bin\\baseml

这可以让baseml程序在当前文件夹中读取默认的控制文件“baseml.ctl”，并根据其中设置的参数进行分析。这时，你就可以输出“baseml.ctl”的拷贝，并用文本文件编辑器浏览相应的序列以及树文件了。同样，对于codeml程序的控制文件“codeml.ctl”也可以使用相同的操作。

接下来你就可以准备你自己的序列数据文件以及树文件了。控制文件以及其他输出文件都是一些简单的文本文件。一个普遍存在的问题是由于UNIX和Windows对于回车符和换行符的使用和识别。如果你使用MS Word准备输入文件的话，需要把这样存储文件“另存为-纯文本”，不要存储为Word文档。我收集了一些注意事项，这些注意事项在附加文件B的“Overcoming Windows

Annoyances”详细列出。

如果你坚持使用双击，你可以打开Windows Explorer，然后拷贝所有的可执行文件，然后把它们粘贴到包含控制文件的文件夹中，双击可执行文件即可。

2.2 对于UNIX和Mac OS X用户（略去） 2.3 运行程序

如上所述，你可以在命令行模式中输入程序名来运行一个程序，但是你应该知道，你的序列文件、树文件、控制文件相对于你当前的工作目录的位置。如果不熟练的话，你可以把所有的可执行文件拷贝到数据文件夹中。对于codeml程序，可能会需要一些数据文件，如：grantham.dat，dayhoff.dat, jones.dat, wag.dat, mtREV24.dat 或者 mtmam.dat，所以你最好还是一起拷贝这些文件。

程序们运行的结果将会以特定的文件名存放，如rub、lnf、rst或者rates。你

不要用这些文件名命名自己的文件，因为这些文件会被覆盖的。

2.4 数据格式实例

examples文件夹中包含许多数据的实例。这些数据在出处的论文中是用于检测新方法的，我把这些数据文件放到这里是为了你们可以重现论文中的结果。序列的排列、控制文件以及详细的readme文件也包含在内。这些都是为了帮助你们发现程序中的bug。如果你对于某个特定的分析及其结果感兴趣的话，你可以找到相应论文，用其中描述的方法分析实例数据以重现那些发表过的结果。这时尤其重要的，因为手册中所述的只是程序中用到的各类变量及其意义，但是并未清楚地描述如何针对特定的数据设置控制文件中的参数。

1）examples\\HIVNSsites\\文件夹：这个文件夹中包含了Yang在2000发表的论文中使用的HIV-1病毒的env V3区域的序列数据。这些数据是为了阐述文章中的NSsites模型，即不同氨基酸位点的不同ω速率的模型。这个模型在之后发表的文章

中（Yang & Swanson）称为“random-sites”模型，因为有这样一个前提：我们不清楚哪些位点可能是高度保守的，哪些位点是经历正选择的。这个模型优势也称作

“fishing-expedition”模型。文件夹中的数据是2000年论文中的第十组数据，分析结果则列在那篇论文的TABLE 12中。请阅读此文件夹中的readme文件。

2）examples\\lysin\\文件夹：这个文件夹中存放着25个鲍鱼物种的细胞溶解酶基因，这些基因在两个文章中分析报道（Yang, Swanson & Vacquier (2000a) and

Yang and Swanson (2002)），这些数据用了两种模型进行了分析：“random-sites”

模型(as in Yang, Swanson & Vacquier (2000a))和“fixed sites”模型(as in (Yang

and Swanson 2002))。在2002年的论文中，我们根据结构信息把细胞溶解酶中的氨

PAML 中文说明

下载：PAML 中文说明.doc

最近浏览

最新搜索

站内搜索