NGS在临床中的应用 下载本文

内容发布更新时间 : 2024/5/21 23:00:00星期一 下面是文章的全部内容请认真阅读。

高通量测序在临床分子诊断中的应用与展望

对于单基因遗传病,以往临床实验室主要借助于Sanger测序、等位基因特异性聚合酶链反应(allele-specific polymerase chain reaction,AS-PCR)、荧光原位杂交、DNA印记杂交等技术进行检验。NGS技术针对癌症、心血管疾病、肾病、糖尿病等复杂性疾病的遗传学筛查与诊断提供了便捷的途径。另外,NGS技术在病原微生物的快速鉴定、药物的靶向治疗以及产前筛查等多个领域具有潜在的应用优势。 1 测序技术的发展及性能比较

2006年,Illumina公司推出了Solexa测序平台。目前,该公司已经推出了多种型号的测序平台,如MiSeq、HiSeq、NextSeq等系列,其中MiSeq系列适合于小型基因组测序,HiSeq系列适用于大型基因组测序。2007年,美国应用生物系统公司推出SOLiD测序平台。该平台采用五轮测序法以4色荧光标记寡核苷酸的连接合成为基础,测序准确性得以提高。2010年,美国生命科学公司和太平洋生物科学公司分别发布了半导体测序平台和第3代单分子实时(single molecule realtime,SMRT)DNA测序平台。这2种测序技术与以往的基于光学信号的检测技术不同,半导体测序平台通过半导体芯片直接感应在序列合成过程中磷酸二酯键3'OH基团释放的质子;第3代测序仪通过纳米孔技术记录单个聚合酶在不受干扰情况下连续合成,其中PacBio RS II每次运行能够产生60 000×16条序列,每条序列的平均长度达8 500 bp。

一般来说,以上每种测序仪在序列读段长度、准确性、测序通量、价格等多个方面存在一定的差异。焦磷酸测序平台测序读段较长,测序通量较低,成本相对较高;Illumina系列平台产生的读段相对较短,测序费用相对较低,应用比较广泛;SOLiD测序平台在通量和准确性方面相对以上2种类型的测序平台有明显改善,但是测序长度更短;半导体测序平台以及SMRT测序平台相比其他测序平台运行时间较短,另外单分子测序平台减少了测序前的扩增准备工作,测序读段较长,但是测序成本和错误率都相对较高[8-10]。一些常用的测序仪的测序原理和性能见表1。

表1 部分常用NGS平台的测序原理和性能概述

与第1代测序技术相比,NGS技术具有以下几方面的优势:(1)通量高。以HiSeq X Ten为例,每年完成人类全基因组测序的量可达到18 000个左右;(2)速度快。特别是半导体测序仪,每次运行所需时间仅数小时;(3)测序成本低。应用Ion Torrent检测平台对数十个基因的测序成本与应用Sanger技术对单个基因的测序成本大致相当;(4)敏感性高。特别是对于取样不均一的样本,NGS能稳定检测>1%的突变信息,对于检测异质性相对较高的肿瘤样本特别重要;(5)所需样本量少。对DNA样本的要求仅为ng数量级。总之,NGS技术能够一次性对多个靶基因进行准确检测,具有所需样本量小、敏感性高、检测成本低、耗时短等优点。

2 NGS技术在临床诊断中的应用

在NGS技术快速发展的同时也加速了该技术在临床分子诊断中的广泛应用。根据检测目的不同,NGS技术在临床中的应用主要分为以下2种策略:(1)针对已知病因的疾病设计合适的芯片,直接对多个已知的致病基因进行靶向基因组测序;(2)针对未知病因的疾病对外显子组或全基因组进行测序。

在临床应用中以上2种测序方式各有优缺点。靶向基因组测序的优点在于具有较高的测序深度、较低的检测成本,同时减轻了临床医生对高通量数据分析的压力,具有较好的应用前景,特别适合于复杂性疾病的临床分子诊断。缺点是当临床患者实际需要检测的基因数<芯片中包含的基因数量时,会导致资源浪费和检测成本升高。另外,当需要将新的基因添加到芯片中时,需要重新设计芯片并再次通过临床质量验证。而外显子组或全基因组测序技术的优点在于能够发现新的致病基因,但是测序成本相对较高。对于检测到的一些突变信息,有时还需要对患者进行跟踪随访,根据随访信息再确定突变位点是否具有临床应用价值。 目前,靶向基因组测序在临床诊断中最广泛的应用是针对癌症亚型的临床诊断与治疗。如针对遗传性癌症的风险评估,利亚德基因公司针对25个癌基因中的突变位点开发了“MyRisk panel”芯片,专门针对乳腺癌、大肠癌、卵巢癌、子宫内膜癌、胰腺癌、前列腺癌、胃癌及黑色素瘤等8种癌型并结合家系信息进行遗传风险评估和健康管理。针对美国食品与药品监督管理局(U. S. Food and Drug Administration,FDA)批准的临床药物,llumina公司针对26个基因的突变位点开发了“TruSight Tumor panel”芯片,根据实际检测结果针对肺癌、结肠癌、胃癌、宫颈癌进行靶向治疗[12]。另外还有“AmpliSeq Cancer Panel V1”芯片、“Truseq Amplicon cancer panel”芯片[14]等。除此之外,NGS还广泛应用于肾病、糖尿病、心血管疾

病等其他复杂疾病的临床诊断中。而外显子组和全基因组测序在临床上广泛应用于筛查潜在致病基因、病原微生物的快速鉴定、产前筛查等方面。因此,测序成本已不再是影响全基因组测序应用于临床的主要障碍,重点在于如何对得到的遗传信息进行有效地解读和实际应用。 尽管以上2种测序方式在临床上具有广泛的应用前景,但是在测序过程中产生的错误依然不容忽视。产生错误的原因有文库的制备、人工操作、测序数据质量控制、测序平台存在的偏好性等。因此,严格的数据分析方法和验证方法对避免产生错误的结果至关重要。在当前的临床分子诊断中,针对单个位点的遗传学变异,Sanger测序仍然被认为是分子诊断的金标准。美国医学遗传学会也建议NGS技术与Sanger测序技术二者相结合共同服务于临床遗传学诊断。

3 NGS检测序列变异的数据分析流程

对DNA或RNA的NGS流程主要分为测序前文库制备→样本上机→测序后数据分析3个步骤。对于测序前的准备工作,靶向基因组测序或全外显子测序还需要对特定的基因序列进行纯化富集。富集方法按照原理的不同分为基于寡核苷酸杂交的富集方法和基于多重PCR的富集方法。方法的选择由多种因素决定,包括测序平台的通量、样本类型(新鲜组织、冰冻组织、石蜡包埋组织)及质量等。石蜡包埋的组织样本包含的DNA质量相对较低,因此选择多重PCR的富集方法比较合适。而血液样本、骨髓样本以及新鲜的组织样本包含的DNA质量相对较高,应用2种富集方法都能得到很好的效果。对于全外显子组测序,由于涉及到的基因的数量太多,只能应用基于寡核苷酸杂交的富集方法。

测序工作完成后,如何对得到的高通量数据进行有效分析是临床实验室的又一个工作重点。一般来讲,NGS的数据分析流程主要分为以下几个步骤。 3.1 碱基识别

测序过程经碱基识别将信号转化成FASTA或FASTQ等格式的原始序列数据,随后应用FastQC软件检测数据质量,并去除接头序列和低质量序列,一般认为质量分值<Q20的序列为低质量序列,>Q30的为高质量序列。对于多个样本混合的情况,还需要应用FastqMultx或Fastx-toolkit对读段序列进行重新分类。 3.2 序列比对

选择合适的序列比对工具,如BWA、Bowtie、SOAP2等将得到的序列信息比对到相应的基因组参考序列上,按照SAM格式(序列比对/定位)输出比对结果。这种格式可以被多种变异检测工具处理,提供的信息包括序列读段、序列质量、在参考基因组上的位置、序列读段与参考序列之间的差异。