人类dna多少g(1千克DNA存储全世界)

人类dna多少g(1千克DNA存储全世界)(1)

DNA的双螺旋结构使其成为一种理想的存储介质,但它还不能取代传统的硬盘驱动器。 (资料图/图)

(本文首发于2019年7月4日《南方周末》)

DNA具有许多合适的特性,使其成为存储海量信息的理想选择。随着测序技术的进步,研究人员开始使用 DNA作为分子记录仪,来“读”和“写”信息。这一进展可能对加速药物开发和治疗疾病意义重大。

在人类发明硬盘的数十亿年前,进化选择了DNA来存储最宝贵的信息——遗传密码。随着时间推移,DNA变得非常擅长这项工作,成为了地球绝大多数生命的首选工具。最近的一些技术突破让我们可以轻松“读”、“写”DNA,于是科学家正在重新利用这种古老的分子存储新类型的信息——在大数据时代,人类以指数级速度生成的数据信息。

利用DNA来存储遗传密码之外的信息,这一设想已经得到了广泛的讨论。毕竟,以1和0记录计算机代码的方式正在接近物理极限。要安全存储我们生成的所有数据,需要克服许多难题。近日,其中一个问题重新映入人们的视野,曾经风行一时的社交媒体网站Myspace宣布,他们在服务器迁移过程中无可挽回地丢失了大约1年的数据。长期保存数据,例如一个休眠一段时间后重新启动的网站中的数据,暴露了现有技术的脆弱和笨拙。而且这不仅仅是一个空间问题:维持数据存储需要消耗大量的能量。

DNA的特性有望解决这些问题。一方面,DNA的双螺旋结构非常适合数据存储,因为知道一条单链的序列就会自动知道另一条单链的序列。另外,DNA也能长时间维持稳定,这意味着信息的完整性和准确性都可以得到保证。例如,2017年,科学家分析了从8100年前的人类遗骸内分离出来的DNA。而这些遗骸的保存环境甚至算不上理想,如果是干燥凉爽的环境,DNA可以保存数万年之久。

不过,DNA双螺旋最有吸引力的地方大概是它可以折叠成一个非常紧密的结构。每个人类细胞都包含一个直径约0.00001米的细胞核,但如果把细胞核内的DNA伸展拉直,它将长达两米。换句话说,如果将一个人的全部DNA串在一起,它将延伸至100万亿米。在2014年,科学家计算出1克DNA理论上可以存储455EB(1018字节)的数据。这样的信息存储密度大约比硬盘中的物理存储密度高出100万倍。

虽然DNA通常被认为是一种存储介质,但在取代传统硬盘驱动器之前,它仍然有许多科学、经济和伦理上的障碍需要克服。与此同时,DNA作为一种适用范围更广的信息技术已经得到了越来越多的应用。例如,一些经典的好莱坞电影已经从脆弱的胶片转移到了遗传密码中。最近,DNA工具已被用来设计更安全的基因疗法,加速抗癌药物研发,甚至第一次“直播”活体生物内的遗传活动。在这个不断发展的领域的前沿,DNA不仅被用于长期存储数据,还在以前所未有的速度促进数据生成。这是因为DNA在两个方向上都要比其他分子更具可扩展性:它一方面能大幅增加我们获得的数据量,另一方面又能缩减存储数据所需的资源。

加速新药物开发

近年来,科学家越来越多地用DNA作为分子记录器,来理解和跟踪他们的实验结果。在多数情况下,这个过程都用到了DNA条形码编码:为了标记和跟踪单个实验的结果,科学家使用已知的DNA序列作为分子标签。例如,一个实验结果可以用DNA序列ACTATC标记,而另一个结果可以用TCTGAT标记。

DNA条形码技术发源于20世纪90年代初,当时斯克里普斯研究所的理查德·勒纳(Richard Lerner)和已故的悉尼·布伦纳(Sydney Brenner)提出,DNA可充当一种追踪化学反应的新工具。他们的设想极具创新性,但也过于超前了:当时还没有廉价的DNA读取技术。因此,直到众多科学家在核苷酸化学、微流控技术等领域做出贡献,促成新一代测序技术出现,DNA条形码技术的潜力才得以兑现。在2005年,测序技术迎来了一个重大突破,研究者称,他们可在4小时的实验中分析2500万个DNA碱基。

新一代测序技术发展迅速,现在我们可以很容易地同时读取数百万个DNA序列,这意味着可以同时运行和分析数千个实验。用新一代测序技术分析DNA条形码有着独特的数据管理模式:科学家不再一次测试一个想法,而是做出20000个预测并同时进行测试,寻找正确的结果。

生物学家是第一批广泛使用DNA条形码技术的人。随着这种技术越来越普及,包括化学工程和材料科学在内,许多不同领域的研究人员都开始使用该技术,以全新的规模进行实验。例如,在我设于佐治亚理工学院的实验室中,工程师正在使用DNA条形码来改良纳米颗粒的设计和功能,以便让它们安全地将药物递送到患病细胞。纳米技术主要依赖物理和化学工程,似乎与DNA完全无关。但是,当你将DNA视为跟踪和存储数据的一种方式时,它作为一种组织工具的效用就变得显而易见了。

纳米技术专家面临的一个基本问题是,在寻找有效的疗法时,设计实验远比执行实验和分析结果容易得多。这是因为纳米颗粒的形状、大小、电荷、化学成分和许多其他变量都可以改变它们将基因药物递送到患病细胞的能力。此外,这些因素之间还会相互影响,使研究人员难以预测哪种纳米颗粒能以最有针对性的方式给药。一个直截了当的方法是逐个评估每个纳米颗粒。但是,曾开发过RNA药物纳米颗粒的制药公司的数据表明,这种类型的测试通常需要数亿美元才能完成。

这就是DNA的存储能力可以大展拳脚的地方。为了增加我们能够测试的纳米颗粒的数量,我们可以设计数千种具有不同化学结构的纳米颗粒——例如大的、带正电的球体或电中性的小三角形,并为每种纳米颗粒分配一个DNA条形码。

纳米颗粒1号,具有1号化学结构,携带1号DNA条形码。纳米颗粒2号,具有2号化学结构,携带2号DNA条形码。我们多次重复这个标记过程,从而产生许多不同的纳米颗粒,每个都有自己独特的DNA标签。之后,我们可以给患病细胞使用数百种纳米颗粒。为了鉴定给药效果最好的纳米颗粒,我们使用DNA测序来读取细胞内的条形码。

这样的实验规模在纳米医学领域是前所未有的。在我的研究领域内,“传统方法”一般只能产生1~5个数据点。到2019年年底,我的实验室希望量化500种不同的纳米颗粒将基因治疗药物递送给40种不同类型细胞的效果。这意味着我们要同时运行20000个实验。

因此,我们还需要创建一个能够监控数据质量的数据分析管道,并帮助我们对结果进行统计测试。首先我们会检验某个实验多次重复的结果是否能预测其他实验中的递送效果。一旦我们确认这个大数据集是可靠的,我们就会使用统计方法来分析纳米颗粒的特征——例如它们尺寸的大小——是否对药物递送的效果有影响。我们发现,决定给药效果的是纳米颗粒的化学性质,而不是尺寸大小。通过DNA条形码标记,我们希望使用更少的资源,更快地发现安全的基因疗法。我们的目标之一是找到一种纳米颗粒,它能针对特定细胞递送基因治疗药物,帮助杀死肿瘤,从而减少现有治疗方法所带来的副作用,如恶心和脱发。

我们已经取得了一些成果。在2018年,通过使用DNA条形码技术获得大数据集,我们迅速找到了一种新型的纳米颗粒,它能够高效地把基因治疗药物递送给血管内皮细胞以及几种帮助身体抵御疾病的免疫细胞。过去,免疫细胞中蛋白质的活性是“没办法用药物改变的”,也就是说,这些蛋白质很难作为化学小分子或抗体的靶标,而如今新型纳米颗粒的发现意味着我们可以攻克这一难关,开发出新的治疗方法。在2018年和2019年,我们在《美国科学院院刊》(Proceedings of the National Academy of Sciences)、《先进材料》(Advanced Materials)和《美国化学会杂志》(Journal of the American Chemical Society)等期刊上发表了研究数据,从而得到了众多其他基因疗法研究者的关注。我们还组建了一家新公司GuideRx,致力于高效率地开发安全的基因疗法。

DNA条形码技术已经遍地开花,甚至在单个研究领域内衍生出了不同的应用方式。一个例子就是癌症生物学,这个领域研究基因突变如何导致癌症,以及新药如何治疗癌症。癌细胞的耐药性是该领域中的一个重大难题:通常某种药物最初对患者有效,但随着药物逐渐失去杀死肿瘤细胞的能力,癌症就会复发。

哈佛大学托德·戈卢布(Todd Golub)实验室的科学家使用DNA条形码技术来研究这种耐药性。在2016年发表的研究中,他们利用病毒永久地将DNA条码插入到癌细胞基因组中。癌细胞A型接受条形码序列A;癌细胞B型收到条形码B,以此类推。科学家将不同的细胞混合在一起,放在培养皿中培养,并用抗癌药物进行治疗测试。

如果药物杀死了癌细胞或减缓了其生长,那么细胞就不会分裂。但如果癌细胞对药物产生耐药性,那么它会迅速分裂。因此,随着时间的推移,如果癌细胞A对药物产生了耐药性,DNA条形码序列A的相对量就会增加。反过来,如果癌细胞A被药物抑制或杀死,则条形码序列A相对量减少。通过测序分析存活细胞所含条形码随时间的变化,研究人员可以同时量化所有类型的癌细胞对药物的反应。

2016年晚些时候,斯坦福大学的蒙特·温斯洛(Monte Winslow)实验室使用DNA条码标记的胰腺细胞系来鉴定阻止癌症扩散或转移的药物。该实验室使用病毒为每个细胞系打上条码,然后将这些细胞系铺在各自的培养孔中。之后,研究者用不同的抗癌药物处理每个孔。通过这种方式,每一种药物都与一个DNA条形码对应起来。紧接着,研究人员将细胞注入血液中,之后测量哪些细胞转移到了肺部。通过识别出现或消失的DNA条形码,研究人员可以确定哪些药物促进了转移,哪些药物可以阻止转移。

在第三个例子中,麻省理工学院和哈佛大学博德研究所的科学家使用DNA条形码来研究基因组中的每一个基因对一种癌症的影响。研究人员首先培养了大量癌细胞,并将它们一起放在一个大培养皿中。之后,他们使用基因编辑系统让基因组中的所有基因逐一失活(或者激活)。被调节了表达量的基因序列起到了条形码的作用。用抗癌药物处理细胞,并随着时间推移对DNA进行测序,科学家就可以了解基因组中的每一个基因是怎样影响细胞耐药性的。

在以上这些例子中,DNA是生成数据的分子,因为同时进行的大量实验需要DNA的支持,DNA同样也是存储数据的分子,因为新一代测序技术是用来分析DNA条形码的。这些研究的意义极为重大,相同的技术可以用来研究自身免疫疾病、神经疾病和心血管功能障碍的治疗方法。想要简单理解DNA条码的巨大威力,只需要把前文提到的“癌症”用其他疾病替换,“耐药性”用其他药物反应替换即可。通过这种方式,DNA条形码可以从根本上简化早期药物的开发,从而加速了有效疗法的研究进程。

把信息写入DNA

DNA条形码技术依赖于“读”已知的DNA序列,而直到最近,“写”DNA还是不切实际的。总的来说,我认为写DNA是将其他形式的信息,如图片、电影或生物状态,转换成可以存储和读取的DNA序列。许多新的书写技术是由基于“规律成簇的间隔短回文重复”(CRISPR)的基因编辑系统驱动的。通过合理设计CRISPR系统,科学家可以编写DNA序列。

最近的一些进展利用的是CRISPR系统自然进化而来,帮助细菌抵御病毒攻击的办法。具体来讲,病毒通过结合到细菌表面,然后插入它们的DNA或RNA来攻击细菌。为了“记住”病毒,为未来遇袭做准备,细菌进化出了识别病毒DNA或RNA的CRISPR系统,可以将病毒DNA的小片段插入到自己的基因组中。也就是说,细菌可以“写下”,或者说“记录”之前攻击过自己的病毒的信息,在未来遇袭之时保护自己。

现就职于加利福尼亚大学旧金山分校的塞思·希普曼(Seth Shipman)曾在哈佛大学遗传学家乔治·丘奇(George Church)的研究团队工作,他利用了CRISPR系统,将一张人手的图像记录到了大肠杆菌的基因组中。为了完成这一目标,希普曼和同事首先表达了两种蛋白质:Cas1和Cas2。这些蛋白质在一起可以捕获DNA的核苷酸并将它们插入基因组中。之后,研究人员将DNA序列“喂”给大肠杆菌,这些序列编码了图像的像素——当所有DNA放在一起测序时,这些像素共同组成一幅完整的人手图像。科学家需要把不同的信息分配给DNA。例如,A、C、G和T各自代表不同的像素颜色,而关联的DNA条形码序列则编码了像素在整个图像中的空间位置。

通过对大肠杆菌的DNA进行测序,研究者以90%以上的准确度复原了原始图像。接下来,他们重复了这个实验,但加入了一个重要的变化:他们分不同批次将信息写入DNA,还开发了一种方法来分析记录了信息的DNA序列相对于彼此的位置。通过测量序列添加到大肠杆菌基因组中的次序,他们能够将一系列图像写入基因组中,从而编码一部电影。研究人员把取自人类的第一部电影的GIF动图录入了基因组。这个电影是埃德沃德·迈布里奇(Eadweard Muybridge)于1878年创作的,展现的是奔跑中的马。在2017年发表的论文中,研究人员证明,他们通过对细菌基因组进行测序,成功还原出了这部迈布里奇的著名电影。

通用的DNA存储技术

随着研究者在越来越多的领域中用DNA生成、跟踪和存储信息,一个问题浮上水面:DNA最终是否能与传统的电子存储设备竞争,来记录人类生成的所有数字数据?现在的答案是否定的——在保存信息方面,硬盘和闪存设备要远远优于最先进的DNA系统。

但是像所有的技术一样,传统的电子设备也有局限性。它们占用物理空间,需要特定的环境条件;即使是最耐用的电子设备也不太可能存活超过几十年。考虑到这些问题,要保存我们今天所生成的所有数据可能很快就会变得困难起来。

相比之下,如果保存在凉爽干燥的环境中,DNA几乎肯定可以维持几万年不变。它可以在-20℃甚至-80℃的低温实验室条件下保存,也可以存储在一般电子产品无法承受的极端炎热的环境中。2015年,苏黎世联邦理工学院的罗伯特·格拉斯(Robert Grass)和文德林·斯塔克(Wendelin Stark)证明,存储在二氧化硅中的DNA能够在70℃下保存一周而不会产生任何差错。尽管硬盘每平方英寸可以容纳1TB的数据,但最近的估算表明,全世界产生的所有信息都可以保存在不到1千克的DNA中。

要使DNA储存技术得到普及,还有许多重大的技术难关需要克服。主要的限制是存储信息方式与提取信息的方式完全不同。此外,从硬盘中获取数据几乎是即时的,而从DNA中提取数据需要测序,目前需要几分钟到一天才能完成。尽管在过去的几年里DNA测序仪有了巨大的飞跃,但与硬盘相比,它们仍然体积庞大,价格昂贵。

在DNA存储能够充分发挥其潜力之前,我们必须考虑的不仅仅是这些技术障碍。作为一个社会,我们需要认识到,DNA测序的无处不在也意味着追踪一个人将变得更加容易,同时数据安全也将出现新的漏洞。在美国和全球范围内,隐私问题的例子比比皆是。

美国各地的警察部门已经在使用DNA测序,但很少受到监督。通过要求所有被捕人员——哪怕是最轻微的犯罪——提供DNA样本,警方正在建立基因信息的大型数据库。有些人认为这是21世纪的“指纹”识别技术。但两者有一个关键的区别。指纹只能识别一个人,但如果你的一个亲戚提供了他或她的DNA,那么这位亲戚暴露的信息就可被用来识别你或你家庭中的任何其他成员。

目前,关于DNA存储的这些担忧涉及的都是一个人的遗传密码本身——相关讨论也一直是围绕着身份保护展开的。但是在将来,如果其他类别的信息,如医疗数据、法律契约和个人数字历史都存储在DNA中,DNA存储在物理安全和网络安全等方面的更多问题就会暴露出来。既然如此多的信息可以保存在这么小的空间里,那么该如何分配数据以避免在一个地方过于集中呢?即便信息提取过程能得到简化,又该怎样在避免恶意攻击或意外损失的前提下,对数据进行常规存取呢?

考虑到科学和伦理两方面需要完成的艰巨工作,DNA存储实用化的难度似乎令人望而生畏。这会让我想起莱特兄弟,因为我的故乡,俄亥俄州的一个小镇,也是他们出生成长的地方。他们的第一次飞行持续了12秒,只前进了37米。而60年后,在没有现代计算机帮助的情况下,人类登上了月球。这些壮举使我相信,我们可以在未来几十年驾驭DNA的天然力量,并主动地认识它的破坏力,确保这项技术为人类造福。

(Scientific American中文版《环球科学》授权南方周末发表,张益豪翻译。本文有删节。)

詹姆斯·达尔曼 (James E. Dahlman)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页