内容发布更新时间 : 2024/11/15 3:01:06星期一 下面是文章的全部内容请认真阅读。
转录组综述 一.引言:
基因的表达分为转录和翻译过程,对同一生物体而言,虽然每个细胞具有相同的基因,但不同的细胞在特定的时空条件下表达不同的基因,转录出不同的RNA分子。例如,人类基因组包含有30亿个碱基对,大约有5万个基因转录成mRNA分子,转录后的mRNA能被翻译生成蛋白质只占整个转录组的40%左右,通过转录组谱数据研究可以得到什么条件下什么基因表达的信息[1],这是基因功能及结构研究的基本出发点,随着生物学研究已经跨入后基因组时代,高通量测序技术的出现,大规模的基因表达水平研究的序幕已经拉开,转录组学作为一门新技术开始在生物学前沿研究中绽露头角,已经成为生命科学研究的热点,并逐渐走向应用。 二.转录组概念:
转录组学(transcriptomics),是一门在整体水平上研究细胞中基因转录的情况及转录调控机制的学科,主要从RNA水平研究基因表达的情况。一般来说,把转录组学分为广义和狭义转录组学[2],广义转录组指从一种细胞或者组织的基因组所转录出来的RNA的总和,包括编码蛋白质的mRNA和各种非编码RNA(rRNA, tRNA, snoRNA, snRNA,microRNA 和其他非编码RNA等),狭义转录组是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有 RNA 的总和[3]。 三.转录组研究内容:
转录组学的研究内容包括:对所有的转录产物进行分类,确定基因的转录结构,通过对转录谱的分析,推断相应某一基因的功能,揭示特定调节基因的作用机制,辨别细胞的表型归属等[4]。
四.棉花转录组研究的意义
棉花纤维转录组研究起步较晚,但近年来大量高质量棉花胚珠、纤维cDNA文库的构建,EST数据库的丰富,以及高通量基因芯片的应用和转录组测序工作的开展,在涉及纤维起始分化、伸长及次生壁加厚等的各个发育阶段均取得了不小的成果。从整体的转录组水平上对棉纤维复杂的多基因遗传机制进行深入研究以及了解整个纤维发育的分子调控机制,结合分子标记技术定位的大量与纤维产量和纤维品质相关的QTLs,非常有助于分子标记辅助选择(MAS )育种和纤维品质的改良。 五.转录组研究技术:
早期由于技术条件的限制和分子生物学研究水平的低下,转录组学的研究内容主要集中
在对单个或少数几个转录物研究的水平上[5]。这一时期的研究手段主要有Northern blot、反转录PCR,抑制消减杂交(SSH)和RNA差异显示RT-PCR (DDRT-PCR)为主。近几年随着大规模、高通量的转录组学技术的大力发展,转录组研究进入了大规模高通量研究的时代,目前以高通量测序为代表的转录组研究的方法主要有三种。 1. 杂交芯片——微阵列技术
当前用于转录组数据获得和分析的方法主要有基于杂交技术的芯片技术包括cDNA芯片和寡聚核苷酸芯片,cDNA芯片是在转录组研究中应用最早及最广泛的为基因芯片技术,一般制备方法是从待检测样品中提取RNA,并利用荧光标记的核苷酸将其反转录成cDNA,经过标记的核苷酸序列可与基因芯片特定位点上的探针杂交,经检测杂交信号而获取细胞基因表达信息。
寡聚核苷酸芯片与DNA芯片不一样的在于它的固定探针为特定的DNA寡聚核苷酸片段(探针),寡聚核苷酸序列选择经过优化,利用合成的几个bp的单链探针代替全长cDNA点样制成芯片。其优点是:无需扩增,防止扩增失败影响实验,减少非特异杂交。 目前,基因芯片技术已成为一项非常稳定的实验技术,其对较高表达的基因检测比较准确,已经公布的大量转录组成果主要是利用基因芯片技术产生的。
陈晓亚等[6]用cDNA微阵列与SAGE的方法研究了棉纤维迅速伸长阶段和次生壁合成初期的基因表达情况,表明棉花和拟南芥具有相似的转录因子调控纤维发育起始阶段胚珠珠被表皮细胞的分化, 其中GaMYB2基因可能是棉花纤维发育的一个关键调控因子
如在纤维起始发育研究方面Lee 等[7]利用芯片分析了纤维起始发育的转录组基因表达情况,鉴定了大量的起始发育相关基因,发现棉纤维发育起始阶段转录因子类基因对纤维的起始发育有关键作用。
Shi等[8]利用EST序列为探针,定制了包含ll,962tlMESTs序列的cDNA微阵列。利用该芯片研究纤维伸长的发育机制,揭示了乙烯代谢途径和超长脂肪酸代谢途径对纤维伸长的调控作用,为棉纤维伸长发育机制的揭示做出了重要的贡献。Wu [9]等利用 cDNA 芯片研究 xu-142和 fl 突变体分化与未分化的胚珠表皮细胞转录组,表明差异表达基因主要参与细胞膜与细胞壁的合成(Wu et al. 2007)
Arpatetal. (2004)[10]最先利用包含超过1.3万条长寡核苷酸探针的寡核苷酸微阵列平台比较分析了纤维10DPA (伸长期)和24DPA (次生壁加厚期)转录组,得到了2553个和伸长相关基因,其中81个在次生壁加厚期表达上调,这些基因与了细胞壁结构的合成、细胞骨架的形成,以及糖代谢有关。这与棉纤维形成过程中纤维素合成特征相一致,这是世界上第一次深
入的探究了纤维伸长转录组,为后续的在棉纤维改良研究的应用做了铺垫。
在转录组研究中利用基因芯片测序也有其缺点:只能检测于已知序列,无法识别新合成的mRNA[11],融合基因转录、多顺反子转录等异常转录产物的检测也不够理想。除此之外,基因芯片对低表达基因检测敏感度差,细胞中mRNA的表达强度不尽相同,几乎一半的mRNA表达强度弱,芯片技术难以检测[12]。测细胞内mRNA表达水平的微小变化 ,如李龙云[13]等利用Affymetrix 芯片芯片对纤维品质不同的近等基因系进行了基因表达差异研究,但是检测得到的基因数数目只有 24000 左右,与预测结果几乎少了一半。 2.基于传统测序法的表达系列分析(SAGE) 和大规模平行信号测序(MPSS)
SAGE是1995年由Veleulesce等建立的一种新的基因表达模式研究技术,SAGE技术基本流程如下[14]:首先从待检测样品中提取出RNA,并用生物素荧光标记的核苷酸将其反转录成cDNA,随后用一种被称为锚定酶的限制性内切酶(Anchoring enzyme) 切割双链cDNA,将回收得到的cDNA片段与不同的接头连接,再用标签酶酶切处理后得到SAGE标签,连接SAGE标签形成标签二聚体并进行PCR扩增,最后锚定酶切除接头序列以形成标签二聚体的多聚体,对其测序可得转录组数据。SAGE技术是一种开放式的、快速高效的分析细胞基因表达状态的方法,该技术不需任何基因序列的信息,能够全局性地检测所有基因的表达水平,这项技术具有显示基因差异表达谱的作用外,对于一些低拷贝基因的发现具有积极意义。
MPSS技术是对SAGE技术的改进,其原理都是基于短标签测序(Tag-based sequencing) 的方法。MPSS技术其主要流程[[15]:首先将待检测样品提取RNA并反转录为cDNA,克隆至带有不同adaptor的载体文库中,随后PCR扩增带有不同adaptor的cDNA片段,在T4 DNA聚合酶和dGTP的作用下使其转换为单链文库,最后通过杂交将其结合在带有Anti-adaptor的微载体上进行测序。
MPSS技术特点:测序精度更高;可测序过程简单,可以直接高通量读出序列, MPSS 技术对于功能基因组研究非常有效,能在短时间内获得细胞或组织内全部基因的表达特征。除此之外MPSS技术对于鉴定致病基因并揭示该基因在疾病中的作用机制等发挥了重要作用。
SAGE技术和MPSS技术结合第二代高通量基因测序仪推动了它们的应用,但这些技术的总体上难度较大,因为碱基偏向产生一些错误数据从而影响转录本的准确性。 3.RNA-Seq
RNA-Seq的操作步骤是首先将细胞中的所有RNA反转录为cDNA文库,然后将cDNA