数据挖掘翻译 下载本文

内容发布更新时间 : 2025/1/24 8:28:32星期一 下面是文章的全部内容请认真阅读。

15.1综述

基因和蛋白质不是独立的存在于细胞中这一事实已经越来越被人接受。在细胞中,基因和蛋白质是细胞通路和生化反应与加工过程的一部分,并且他们的功能建立在除了个人属性外的细胞环境中。相对地,在生物信息学中,注释的焦点已经从分配功能转移到与功能有关的独立蛋白质的功能中。(定义:两个功能相关的蛋白质是指这两个蛋白质共同参加细胞的合成过程。功能联系:存在于很多的细胞活动中,是指在信号转导通路中两个蛋白质的相互作用,比如说蛋白质作为酶参与相同的代谢途径,作为被调节的蛋白质或者调节另外蛋白质的蛋白质) 从理论角度的观点看,本章涉及一些基本的与数据学习方法有关的问题,这些方法主要是统计学方法和机器处理数据的方法,运用统计学和机器处理数据的方法具有高效,强表达力和说服力的作用,通过对这些数据的分析,将具有特殊生物学功能的区域进行合并。在机器学习方法中,有一个固有张力:即在PPI(蛋白质和蛋白质间的相互作用)的上下文预测中,很多敏感的预测需要越多的信息,比如说系统发生的信息等;更多有特殊功能蛋白质的预测需要更多的细节信息,比如结构信息等。因此提取隐藏在数据中的信息并且将不同来源地和不同水平的数据在保持灵敏性和特异性平衡的条件下转化为生物学知识是很重要的。这也就表明这一章的主要内容是:在主要部分以外的内容中获取更多的信息,然后返回来建立一个方法,这个方法仅仅需要主要序列的信息来做预测。为了这个目的,现有的学习模式已经不能满足,新的技术和模型被开发出来,比如说应用转化式学习最小二乘法支持向量方式的学习,在充分统计学的ipHMMs中制定一个新的费舍尔得分来促进特征选择。

特别的,我们着重从以下三个方面来推断和预测蛋白质的功能关系。1.进化的观点:提取和整合进化方面的方法和模型,如距离矩阵和系统发育谱。信息量和系统发育树的拓扑结构之间的关系被用来学习和利用以供数据规则化的使用。作用机制被设计用来发现不标准的进化事件,比如说基因水平转移,并且它的含义对PFL(蛋白质功能联系)的预测做出了合理的解释。2.结构的观点:结构方面的信息,比如说邦定残留被纳入模型,这样可以用于PFL的预测,尤其是PPI,对那些没有结构信息的蛋白质。特征选择被开发和利用在识别结构和功能特征以及提出有效的淘汰基因突变建议。3.网络的观点:预测细胞间相互作用的方法和模型涉及多种蛋白质,并且需要结合网络环境的图论的方法。 在生物信息学和计算生物学中,最新的计算方法主要是一下两种类型中的一个。 1.ab initio:即运用分子动力学的第一原则来解释和预测生物分子过程。一个典型的例子就是ab initio方法在蛋白质折叠问题上的发展。

2.表观现象:通过与功能相关的结构域检测表型的特征,并且建立模型来从没有功能联系的结构域中将它们区分出来。

尽管PFL的理念问题最终应该用ab initio的方法解决,但是总是缺少充分的信息来将这些问题与分子动力学的解决方案联系在一起,或者即使这些信息是可供使用的,计算机也超过了他的最大内存容量。总的来说,像其他许多生物信息学的方法一样,为PFL开发的方法也属于表观现象的这一种类。从某种意义上来说,在将两个分子结合在一起的静电位的计算上,我们没有下去一个水平,相反的,我们仍然保持在一个相对较高的并且有象征意义的水平上,在提取蛋白质作为一个序列中,用20个字母表示20种氨基酸,试着从不同的来源的蛋白质中提取可利用的信息,这些信息可以用于基因组测试,也用于在蛋白质的X射线晶

体结构中残留位置的确定。比如说:如果知道这一组蛋白质有相同的功能,我们可已将他们的主要序列对齐,来观察他们相同的特征。由于生物的进化,比如说在进化过程中这些蛋白质中的一些发生了突变,而且这些突变一直保持着,那么这个序列就不是完全相同的。另一方面,这些结构和功能的区域相对来说是稳定的,并且在序列比对中这些序列也会表现出高度的相似性。在已知功能的区域,可以在这些蛋白质区域构建概率模型,然后用不知道功能的蛋白质来识别这些区域。这样简化了的方法表明了一种典型的逻辑上很本质的被许多生物信息学分享的方法,在基因组和蛋白质组学中,这种方法在缺乏各种高通量计术产生巨大数据量的情况下,提取数据是非常的有用和高效。

15.2 生物背景和动机

高通量技术的新发展,使得我们可以在大量的细胞和在生物反应的环境下研究分子实体成为可能。比如说:基因芯片技术可以同时的测试成千上万的基因的表达水平。在不同的条件下和不同的时间点下检测基因的表达可以对分子机制基本的过程有深刻的理解,比如说基因调节。结合二维凝胶和质谱仪的方法,在直接测量蛋白质的表达水平中是一个很先进的方法。然而,没有有效的高通量技术方法对直接的观测PFL有效,比如说,两个蛋白质相互作用的方法,如Y2B系统(当前分类中的一种方法),就有很多的错误。由于这些困难和由实验方法造成的高成本,使得开发一个高效的计算方法来从成千上万的数据中推断它们的功能联系越来越紧迫。这些数据要么来直接源于高通量技术产生的实验中,要么来源于包括DNA和蛋白质的数据库(SwissProt和Genbank),功能数据库(PDB,SCOP和CATH),进化研究(系统发育谱),表达谱,KEGG,和一些文献中。

预测PFL是一个高度困难的任务,因为它要考虑到很多方面的因素。为了提高问题的复杂性,我们将PPI作为一个例子。即使两个蛋白质可以在物理方面相互作用,但是实际上他们是否有相互作用取决于这两个蛋白质在同一时间是否处于细胞中的同一位置。两个蛋白质是否相互作用的核心问题最终基本上是被生物物理学和生物化学的研究决定的:即是否将这两个蛋白质绑定在一起有互补的有利作用。当两个蛋白质相互作用时,参与相互作用的残余物(一般在分子的表面)形成了一个域。如图15.1所示,该图表示两个相互作用的蛋白质间的结构相容性,其中黑色突出的区域表示相互作用的表面,边界层的区域是很突出的。这样的区域作为结构和功能的单位出现在所有具有相同结构或功能的蛋白质中,控制着独特的性状。换句话说,这些区域是这些功能或结构的决定性区域,因此用术语“结构域”来表示他们之间的关联。在研究蛋白质的相互作用中,有两个主要的任务:其中一个是识别残余物或者涉及交互的其他结构域。另一个问题是预测相互作用的其他蛋白质。在这里,我们用物理间相互作用的两个蛋白质作为一个例子,结构域的概念适用于具有特定功能的蛋白质中,同时也适用于功能间的联系。也就是说,功能相关的蛋白质很可能通过与他们相关的结构域识别,尽管他们之间很少有直接的关系,或者它们之间的关系很微妙。

图15.1

蛋白质与其所行使的功能之间一个微妙的联系是通过所谓的系统发育谱来研究的。有很所问题,比如说为什么蛋白质的功能和结构区域需要保持它们的序列组成,同时与功能相关的蛋白质在进化过程中也会发生变化,结果就是与该功能相关的其他蛋白质也会发生变化,最终达到了共同进化的作用,因为一个蛋白质不可能在没有其他蛋白质相互作用的条件下独自正确的发生作用。图15.2表明了一个蛋白质变化导致其他蛋白质的变化,最终达到共同进化。在较高的层次,蛋白质的进化史是作为一个系统发育图谱表示出来的,在这系统发育图谱中,每一个成分都符合一个特定的基因组,并且或给它取值为0或1.其中1表示在该基因中存在同源基因,0表示不存在同源基因。如果两个蛋白质共同进化,他们的系统发育图谱将会通过相似甚至于完全相同的方式反映这个事实,如图15.3。为了解决共同进化问题产生的分歧,已经开发了很多的方法。比如说:拥有完全相同的系统发育图谱是很需要的,因为蛋白质在基因中的存在或者不存在不总是100%可靠的,因为判断蛋白质在基因中是否存在是建立在通过对蛋白质序列和基因序列做blast的基础上。因此基于这样严格标准的方法很可能会将两个相互作用的蛋白质预测为没有相互作用的蛋白质,导致一个错误的结果(FN)。即使用不同的方法,多结构域的蛋白质,在声明他们的蛋白质存在与否方面也会增加这个任务的难度。