一代测序原理及应用(测序技术简史)
(一) | 从发现双螺旋开始
对很多人来说,基因测序仪都是一个很陌生的名词。然而,如果你感受过独步世界的中国高铁技术,见证过中国发射的量子卫星,还听说过独占世界超算排行榜长达五年的中国超级计算机,那么处于全球领先地位的中国基因测序仪也绝对值得一探究竟。
人们常说,19世纪是蒸汽机的世纪,20世纪是汽车和计算机的世纪,而21世纪则是生命科学的世纪。生命科学研究将在医疗健康、体育运动、农业养殖、司法刑侦、太空探索等众多方面广泛而深远地改造人类生活。作为生命科学研究最核心的基础性工具,基因测序仪已经成为当前中美全面科技竞争的重要领域。
什么是基因测序
基因测序技术是基因组学研究的核心技术,是现代生命科学研究中最广泛应用的重要技术。你可能还不知道,地球上几乎所有你能看见和看不见的生命形式都是由基因编码而成的。塞满商场的人类、卖萌为生的熊猫,爬过阳台的甲虫、各类叫不上名字的树木花草以及数万亿和我们亲密接触的细菌、微生物,都是由DNA编码的生命体。
每一个生命都像是执行一段代码的程序,而DNA正是生命的源代码。相应地,破解生命源代码的技术,就是DNA测序。
发现双螺旋——让测序成为可能
如果说测序技术的进步是发掘矿藏的过程,那么还需要先行者告诉我们矿藏的方向和位置。完成这项任务的,正是科学界的两位顶尖人物——沃森和克里克。
双螺旋结构的发现者James Watson和Francis Crick
1953年,沃森和克里克发现了DNA双分子螺旋结构,人类对生命的认识有了重大的突破,即:“生命是序列的,生命是数据的。”生命体的全基因组包含了其全部遗传信息,这些信息是A-T、C-G四种碱基两两配对后排列成的长链。这些碱基的排列信息可以被读取出来,以1010001的二进制形式存储在计算机中;可见,生命的密码是一组可以被数据化的碱基排布序列。因此,测定DNA序列就成为解读遗传信息的先决条件和整个生命科学研究的重要基础。
可以说,正是DNA双螺旋结构的发现,带动了DNA测序技术的大发展,开启了人类历史上方向明确而历时长久、道路曲折、投入巨大、进展惊人的探索。
测序技术发展的四个阶段
DNA双螺旋的发现,让破解生命源代码的DNA测序在原理上成为可能,现在我们就来回顾测序技术的具体发展,其主要经历了四个阶段。因篇幅所限,这篇文章将为你展示前两个阶段。
阶段1:从“前直读”到“直读”
1964年,即DNA螺旋被发现11年后,康奈尔大学的研究者第一次分析了酵母的核苷酸序列。这次研究标志着一个新时代的开始。不过,正如承载生命信息的大分子经历了从RNA到DNA的历程,最开始的测序方法是用来测定RNA序列的,实验用不同的RNA酶对RNA模板进行“消化”(digestion),并根据反应后产物中可能重叠的序列间接推导可能的完整序列。这种测序技术流程繁琐,推导复杂,很难重复,验证还更为困难。不仅如此,在试图测定双链且更加稳定的DNA时,这种方法没能获得成功。
直读法示例
在技术的发展史上,新技术的出现就像制作一个木桶,每一块木板都代表一种必须具备的基础条件,任意一块板的缺失都不构成一个木桶,同时,木板之间还需要彼此适应和融合。直接读取DNA序列的测序技术(即“直读法”),正是这样一个木桶。它是在分子克隆技术、凝胶电泳技术、放射自显影三种技术全部成熟之后才出现的。在这三种技术的基础之上,直接读取DNA序列的SBC和SBS测序法问世。“直读法”的最大突破在于不再需要间接推导,而是可以直接在凝胶上按顺序直观读出测序模板,判断DNA分子每个碱基位置上为T-C还是A-G。
SBC与SBS这两种方法在原理上相似,但具体操作有诸多不同。SBC法使用化学试剂,有较强的毒性,且技术复杂较难掌握,成功率不高。相比之下,SBS法使用酶试剂,具有操作简便、结果稳定、准确性高且重复性好等特点。更有意思的是,运用SBS法的设备相对简单,可以实验室自制或采用通用设备,还有使用方便的标准化试剂盒,因此很快风靡全球相关实验室。SBS法由英国科学家桑格(Frederick Sanger)于1975年率先发明,因此也被称为Sanger法。这种直读法的发明也为DNA测序的数字化和自动化奠定了基础。
Sanger电泳法跑胶结果示例图
阶段2:从手工到自动化
上世纪80年代以前,分子生物学这门学科一直都被戏称为“现代技术、手工操作”,直到DNA测序技术出现,分子生物学才有了第一种实现自动化和信息化的技术。此后测序技术在几十年发展历程中不断吸收其他领域新技术(如物理领域的纳米技术及激光技术、化学领域的荧光标记核苷酸技术、生化领域的毛细管电泳分析、信息领域高密度芯片等技术)并将它们融为一体的成果,形成了现代科学研究技术中的强力工具。
1986年,加州理工学院的胡德(Leroy Hood)发明了以四种荧光物质标记测序反应产物的“四色荧光法”,这些荧光物质在不同波长的激光下呈现不同颜色。这项技术成为广受欢迎的SBS测序法(Sanger测序法)走向自动化的关键突破。
四色荧光法原理示意图和自动测序仪的四色荧光“峰图”
这种方法将测序效率提高了数倍,读长达到500nt(nt:nucleotide 核苷酸,是衡量单链核酸的长度单位),分辨率大为提高;而且,这是测序技术发展史上首次真正彻底抛弃了放射性物质的使用。测序效率也称为“通量“,是指单台设备一次反应所获取的序列数据量。
另外,还有一个与通量同样重要的概念——“读长”:测序仪的测序原理是将目标DNA大量复制,然后用酶将这些DNA长链切断,并分别对每一小段测序,最后将这些片段拼接还原成完整的长链。读长就是指测序仪能读出的每一个DNA片段的长度。这两个概念很重要,后面还会经常提到。
据此,美国ABI公司在1986年推出了第一台商品化的平板电泳全自动测序仪——ABI 370A。此后,该公司又推出了多种改进型,在读长、通量、准确性方面都有很大提高,这种自动化测序仪成为划时代的国际“人类基因组计划(HGP)”得以启动的重要技术依据。
尽管这一代测序仪为“人类基因组计划”做出了突出贡献,但只实现了测序过程的自动化,在自动测序之前的细菌克隆、手工制胶、手工加样等操作都需要消耗大量的人力。一组数据可以说明问题:在“人类基因组计划”冲刺阶段,华大在6个月的时间里完成了50万次成功的测序反应,共消耗了1500万个形状大小与医用“针头”类似的移液器吸头。
未完待续,详见下期精彩
小贴士
1.人类基因组计划(Human Genome Project, HGP)
人类基因组计划是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。基因组计划是人类为了探索自身的奥秘所迈出的重要一步,是继曼哈顿计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。
这一计划于1990年正式启动。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。2001年,人类基因组工作草图发表。2003年4月14日,六国首脑共同宣布人类基因组测序胜利完成。
2.测序效率与读长
测序效率也称为“通量”,是指单台设备一次反应所获取的序列数据量。 测序仪的测序原理是将目标DNA大量复制,然后用酶将这些DNA长链切断,分别对每一小段测序,最后根据片段首尾重合的部分,拼接还原成完整的长链。读长就是指测序仪能读出的每一个DNA片段的长度。
3.SBC与SBS
这两种方法的原理相似,但具体操作有诸多不同。SBC法使用化学试剂,有较强的毒性,且技术复杂较难掌握,成功率不高。相比之下,SBS法使用酶试剂,具有操作简便、结果稳定、准确性高且重复性好等特点。且运用SBS法的设备相对简单,可以实验室自制或采用通用设备,还有使用方便的标准化试剂盒,因此很快风靡全球相关实验室。
(二)| 爆发式的进步
前面,我们谈到了测序技术经历发展的前两个阶段。双螺旋的发现,让测序成为可能,历经了从“前直读”到“直读”,从手工到自动化的飞跃。本期,我们将带您了解测序技术发展的另外两个阶段,回顾测序技术如何因原理的改变迎来爆发式的突破与增长。
前情回顾
测序技术简史(一) | 从发现双螺旋开始
阶段3:
从“平板”到“毛细管”
的确,平板凝胶电泳技术在历史上的功绩是十分卓著的。然而,受限于技术原理,在“人类基因组计划”后期已经没有更多的发展改进空间,正如今天的晶体管小型化技术也有无法逾越的物理学限制。
就在此时,毛细管电泳技术横空出世。在测序领域,毛细管电泳测序法替代平板电泳测序法是一场真正意义的技术革命,可与汽车替代马车相提并论。直接效果是显而易见的:原本工作进度严重落后的人类基因组计划再度发力,以极快的速度和较高的质量提前两年宣告完成。
毛细管电泳测序仪实现了SBS直读式测序技术的规模化、高通量化和全自动化(不再需要人工制胶) 。 但正如汽车刚出现时,在速度、装载量、灵活性等各方面与马车表现出的差距,ABI公司在上世纪90年代推出第一代自动毛细管测序仪ABI 310时,不但通量没有明显提高,精度低,更在评价测序仪的关键指标“读长”方面,与成熟的平板电泳测序仪有较大差距。因此,尽管有部分人认可毛细管电泳技术的应用前景,但当时似乎看不到在短时间内大幅改进的希望,因此并不被普遍看好。不过 ,正如许多新生事物一样,尽管毛细管电泳技术在初期有着各种明显缺陷和严重问题,却代表了未来相当长时间内测序仪开发的正确技术方向。
1998年,ABI公司推出ABI3700毛细管电泳测序仪,在读长和准确率等指标上追平了成熟的平板电泳测序仪。最重要的是,它的测序通量提高了数倍,并且克服了平板电泳无法依赖大量手工程序的缺陷,实现了从上样、数据收集到质检、初步分析的全面自动化。从此,一个人可以同时管理十几台运转中的测序仪,只需定时更换DNA模板和毛细管即可。
ABI3700
作为生命科学研究的核心工具,基因测序仪价格极为昂贵且发展日新月异。因此,对于测序仪技术方向的选择直接决定了一个现代基因组研究中心未来的命运。
20年前,财力雄厚的日本开始大力投入资金,进行测序中心建设。他们选择了当时在读长、精确度等关键参数远超毛细管测序仪的平板测序仪。更具吸引力的是,平板测序仪使用人工灌胶,运行成本还很低,因此选择平板测序仪似乎顺理成章。当时,中国在基因组学方面的研究刚刚起步,经济上十分拮据,但却选择了读长及精确度都较低、价格极为昂贵,但通量提升方面具有很大潜力的毛细管测序仪,并将有限的经费全部投入。中国测序中心领导者的思路是以“大规模效应”省钱,以“高通量”赢得时间,这个策略后来被历史证明极为正确。日本研究中心大量的平板测序仪则很快被淘汰,连机器用的试剂都无法得到持续供应,从此一蹶不振。
阶段4:
从初步规模化到大规模并行高通量测序
毛细管电泳测序仪实现了DNA测序的高通量和自动化,标志着研究生命体完整基因的基因组时代的到来,为人类基因组计划做出了历史性的贡献。然而,到2003年,毛细管电泳测序技术却差不多走到了极限。
如果说平板电泳测序技术的最大问题是无法实现自动化和规模化,那么毛细管电泳测序技术在实现这两点的基础上也存在重大的缺陷。不可避免地,这种技术要遵循“一个样本、一个反应、一条泳道”的规则,每个样本的文库和模板都要单独制备,过程费时费力、成本高、错误率高、成功率低。如果这些步骤实现自动化,那么为节约昂贵的反应试剂,又需要逐个模板进行质控检查,严重阻碍了效率提升。
毛细管电泳法测序工具
毛细管电泳测序仪的局限还在于:若想进一步提高通量,只能在物理上把毛细管做的更细、并增加毛细管泳道的数量,原理与在芯片上集成晶体管类似。2003年,有测序仪生产公司做过这方面的尝试,将主流毛细管测序仪的毛细管泳道从96道提高到384道,但这个尝试未能如愿。毛细管电泳测序仪走到了末代的平板电泳测序仪依靠物理方法提高测序通量的阶段,证明这种技术已经没有再提升的空间了。
不可否认,毛细管电泳测序技术将一个人的全基因组测序成本从平板电泳时代的数十亿美元降低到3000万美元,实现了技术上的重大飞跃,但这个测序成本仍然十分昂贵,远不能满足基因组学发展的需要。时代呼唤新的测序技术。在这个背景下,大规模并行高通量测序技术(MPH:Massively Parallel High-throughput)问世,是测序技术发展史上影响极为深远的一场革命,因此也被称为下一代测序技术(NGS:Next-Generation Sequencing)。
2005年12月,第一台代表大规模并行高通量测序技术的测序仪454 GS20,由美国Life Science公司开发成功,性能十分优异。2006年,Life公司宣布使用454测序仪为DNA双螺旋结构的发现者詹姆斯·沃森完成了全基因组测序,费用约为200万美元。454采用了基于SBS法基本原理的焦磷酸测序技术,这种新型的酶联级联测序技术,适于对已知的短序列的测序分析,其可重复性和精确性能与Sanger DNA测序法相媲美,而速度却大大的提高。通过检测反应中的焦磷酸信号判断DNA序列,并不直接读取DNA中的碱基。运用类似原理的还有使用半导体原件检测测序反应中氢离子浓度的半导体测序技术。
Life Science 454
大规模并行高通量测序技术(MPH)实现原理有多种,但都有两个共同特点:
一是“裸、密”并行,摒弃了“一个模板、一个泳道”, 以芯片实现了大规模、多模板并行测序。 一张芯片可以集成数亿个模板的高密度分子簇(cluster),每一个分子簇为一个裸露的测序反应,测序通量提升了几个数量级。从样本制备的角度看,更是一场革命:以往毛细管电泳时代“一个样本、万个克隆、万个制备、万个质控”的样本制备形式一去不复返。
二是测序通量的提高以牺牲“读长”为代价。 相比成熟毛细管电泳测序仪600nt的读长,大规模并行高通量测序仪刚问世时读长仅为100nt, 读长短板主要靠生物信息软件算法来弥补,对生物信息处理能力提出了更高的要求。
在大规模并行高通量测序技术中,最早实用化的焦磷酸测序和半导体测序都是基于SBS法(Sanger法),此后出现了对SBS法进行革命性改进的新一代SBS法,其中最具代表性的是美国Illumina公司的循环SBS法(cycle SBS,也称为可逆终止法SBRT:Sequencing By Reversible Termination)和华大智造(MGI)的环化单链DNA DNA纳米球测序法(cssDNA DNB:circle single-strand DNA DNA Nano-Ball),是当前最先进的实用化大规模并行高通量测序技术。
(三)| 当今的主流:大规模并行高通量测序技术
回顾了测序技术发展的四个阶段,我们看出,经过多轮技术路线的淘汰,有两种大规模并行高通量测序技术脱颖而出,因其在成本、速度和准确度方面达成了很好的平衡,因此逐渐成为了当今世界的主流。
前情回顾
测序技术简史(一)| 从发现双螺旋开始
测序技术简史(二)| 爆发式的进步
一、桥式PCR测序
桥式扩增测序技术在之前的技术基础上做了革命性改进,这项技术的核心是DNA合成的可逆性末端循环,其创新点在于两方面:
桥式扩增技术示意图
1、在化学上实现了末端循环(合成)测序和“循环可逆“的信号读取;
2、在物理上,用DNA模板分子簇的”裸露“DNA合成来实现大规模高通量并行测序,一个面积为20平方厘米的测序载片可以形成约40亿个DNA分子簇,极大拓展了通量,使CCD光学检测系统可以一次性读取视野内所有模板的测序信号,并继续下一轮合成反应,形成高效循环。当这些测序载片上几十亿个DNA分子簇显示在CCD成像图上时,就像是哈勃望远镜超深空照片上密集而璀璨的星系,美妙非凡。
测序载片成像图 与 哈勃超深空照片
这种测序方法的另一大优势在于实现了“双向”测序,充分发挥了“中间”片段(即没有序列但方向明确的 “空洞”片段)的作用,方便序列的组装。
在DNA模板复制扩增方面,桥式PCR技术中DNA模板复制原理类似核裂变中的链式反应,1个DNA片段复制为2份,以2份为模板复制得到4份,如此循环……,这种指数型复制方式的优点是复制速度很快,但以复制品为模板进行下一轮复制,过程中会产生复制错误并积累下来,导致少量DNA信息出现失真。
二、DNB测序
当今另一种主流的大规模并行高通量测序方法,是环化单链DNA(cssDNA : circle single-strand DNA) DNB纳米球(DNA Nano-Ball)测序技术,其具体实现方法可谓独辟蹊径。
DNB纳米球技术示意图
在这项组合技术中,DNA长链在超声波或酶的作用下随机打断后形成模板DNA片段,在接头作用下连接成一个圆环,这就是环化单链DNA(cssDNA),通过滚动复制,形成一个含有300—500份拷贝的DNA纳米球(DNB),随后这些制备成功的DNB会被加载到测序载片(Flow cell)上并附着、固定在预制的纳米孔位,为下一步测序做好准备。
测序载片经过精密的半导体加工工艺在表面形成结合位点阵列,实现DNA纳米球的规则排列吸附,这一技术被称为DNB规则阵列技术(Patterned Array),这项技术使得测序载片上的活性位点呈矩阵网格排列,所有活性位点间距保持整齐一致,每个位点只结合固定一个DNA纳米球(DNB),可保证不同纳米球的光信号不会相互干扰,保证了测序的准确度,同时提高了芯片利用效率,实现了极好的成像效率和最优的试剂用量。这样的一张载片可以布置数十亿个活性位点,使得它的成像图就像是哈勃望远镜把镜头对准了星团的中央。
DNB纳米球规则阵列载片成像图与
大麦哲伦星系中的球状星团
在DNA模板复制扩增方面, 环化单链DNA很好地避免了复制错误积累的问题。环化单链DNA(cssDNA)的复制原理相当于始终以原文件为模板复制新的文件,复制产生的误差极小。
这种测序技术下一致性序列的准确率可达99.999%,准确率高居各类测序方法榜首,十分适合做人类全基因组测序。除此之外,这个方向上还有一个亮点技术是基于分子共标签技术和高通量短读长测序技术开发的stLFR单管长片段建库技术(stLFR-single-tube Long Fragment Read),该技术可间接得到长片段DNA数据(达到几十Kb),并且能区别父源或母源的单体型序列,且能在单管中完成所有实验流程。
综合来说,两种主流的高通量测序技术,都很好地兼顾了通量、准确度和成本等多个方面,因此才在技术演进的反复洗练中胜出,并成为了今天的主流。目前这两种高通量测序技术还有较大的改进潜力,尤其是与当前日益成熟的长片段技术相结合,大规模并行高通量测序(MPS)将发挥出其真正的威力。
样本处理综合服务商,点击了解
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com