内容发布更新时间 : 2024/11/8 19:49:30星期一 下面是文章的全部内容请认真阅读。
和codeml中序列排列时产生的gap会被识别为缺省数据(如果cleandata=1)。如果cleandata设置为1,那么所有的不明确的数据以及gap数据都会被删除。
2)基因预测:程序codonml只能用于编码序列的分析,所以codonml在运行事是假设序列是预先排列好的外显子,并且序列长度为3的倍数,序列中的第一个核苷酸会被识别为密码子位置1。内含子、居间序列以及其他非编码区域必须事先删除,编码序列也必须事先排列完毕。程序也不能处理那些直接从GeneBank里面下载的数据,就算CDS信息已经确定也不行。这段程序不能用于编码区的预测。
3)在大量数据中寻找构树信息:如前所述,你可以通过其他的软件得到一个树或者几个备选树,然后用他们作为用户树去拟合某个模型。
2、PAML程序的编译以及应用
PAML使用老式且简单的命令行界面。你可以从PAML的网站上下载档案文件(一般来说,这个档案文件的名字时 “PAML*.*.tar.gz”),然后解压缩到本地磁盘上。这个文件适用于所有的操作系统平台,对于Windows用户来说,只需解压即可,对于UNIX或者MAC OS X用户,则需要在运行程序之前编译一下。
2.1 对于Windows用户
Windows的可执行文件放在如下所述的文件夹中:
1)到PAML的网站上(http://abacus.gene.ucl.ac.uk/software/paml.html)下载最近升级的档案文件并存放到本地硬盘上。然后将档案文件解压缩(如用WinZip)到一个特定的文件夹中,例如(D:\\software\\paml\\),记住文件夹的名字。
2)进入命令行模式。可以通过以下方式:“开始-程序-附件”或者“开始-运行”然后在命令框中输入“cmd”然后点击确定。你可以通过右键点击标题栏改变窗口的字体、颜色、大小等。
3)将目录改到PAML的文件夹下。例如你可以输入: d: cd \\software\\paml dir
4)注意,Windows命令以及文件名不区分大小写。“src”文件夹中存放的时一些源文件,“examples”文件夹中存放着各式各样的实例文件,“bin”文件夹中存放着Windows的可执行文件。你可以用Windows Explorer浏览这些文件。如果需要在当前目录下通过默认的控制文件“baseml.ctl”运行baseml程序的话, 你可以在命令行中输入这些:
bin\\baseml D:\\software\\paml4\\bin\\baseml
这可以让baseml程序在当前文件夹中读取默认的控制文件“baseml.ctl”,并根据其中设置的参数进行分析。这时,你就可以输出“baseml.ctl”的拷贝,并用文本文件编辑器浏览相应的序列以及树文件了。同样,对于codeml程序的控制文件“codeml.ctl”也可以使用相同的操作。
接下来你就可以准备你自己的序列数据文件以及树文件了。控制文件以及其他输出文件都是一些简单的文本文件。一个普遍存在的问题是由于UNIX和Windows对于回车符和换行符的使用和识别。如果你使用MS Word准备输入文件的话,需要把这样存储文件“另存为-纯文本”,不要存储为Word文档。我收集了一些注意事项,这些注意事项在附加文件B的“Overcoming Windows
Annoyances”详细列出。
如果你坚持使用双击,你可以打开Windows Explorer,然后拷贝所有的可执行文件,然后把它们粘贴到包含控制文件的文件夹中,双击可执行文件即可。
2.2 对于UNIX和Mac OS X用户(略去) 2.3 运行程序
如上所述,你可以在命令行模式中输入程序名来运行一个程序,但是你应该知道,你的序列文件、树文件、控制文件相对于你当前的工作目录的位置。如果不熟练的话,你可以把所有的可执行文件拷贝到数据文件夹中。对于codeml程序,可能会需要一些数据文件,如:grantham.dat,dayhoff.dat, jones.dat, wag.dat, mtREV24.dat 或者 mtmam.dat,所以你最好还是一起拷贝这些文件。
程序们运行的结果将会以特定的文件名存放,如rub、lnf、rst或者rates。你
不要用这些文件名命名自己的文件,因为这些文件会被覆盖的。
2.4 数据格式实例
examples文件夹中包含许多数据的实例。这些数据在出处的论文中是用于检测新方法的,我把这些数据文件放到这里是为了你们可以重现论文中的结果。序列的排列、控制文件以及详细的readme文件也包含在内。这些都是为了帮助你们发现程序中的bug。如果你对于某个特定的分析及其结果感兴趣的话,你可以找到相应论文,用其中描述的方法分析实例数据以重现那些发表过的结果。这时尤其重要的,因为手册中所述的只是程序中用到的各类变量及其意义,但是并未清楚地描述如何针对特定的数据设置控制文件中的参数。
1)examples\\HIVNSsites\\文件夹:这个文件夹中包含了Yang在2000发表的论文中使用的HIV-1病毒的env V3区域的序列数据。这些数据是为了阐述文章中的NSsites模型,即不同氨基酸位点的不同ω速率的模型。这个模型在之后发表的文章
中(Yang & Swanson)称为“random-sites”模型,因为有这样一个前提:我们不清楚哪些位点可能是高度保守的,哪些位点是经历正选择的。这个模型优势也称作
“fishing-expedition”模型。文件夹中的数据是2000年论文中的第十组数据,分析结果则列在那篇论文的TABLE 12中。请阅读此文件夹中的readme文件。
2)examples\\lysin\\文件夹:这个文件夹中存放着25个鲍鱼物种的细胞溶解酶基因,这些基因在两个文章中分析报道(Yang, Swanson & Vacquier (2000a) and
Yang and Swanson (2002)),这些数据用了两种模型进行了分析:“random-sites”
模型(as in Yang, Swanson & Vacquier (2000a))和“fixed sites”模型(as in (Yang
and Swanson 2002))。在2002年的论文中,我们根据结构信息把细胞溶解酶中的氨