数字生命空间(谷歌解开生命奥秘)

全文共4484字,预计学习时长8分钟

数字生命空间(谷歌解开生命奥秘)(1)

Paweł Czerwiński发布在 Unsplash上的原图

假如疾病不复存在会发生什么?如果我们能像大自然一样迅速获取能量又会发生什么?要是我们能够在极短时间内循环塑料、废油、或其它的一些物质呢?如果人类能够解开生命的奥秘,那么以上这些想象将在未来成为现实。人工智能企业DeepMind的数据科学分析师日前在此领域有了重大发现。以下为具体内容:

当今这个时代,是一个生命科学大爆发的新时代,也是一个由数据科学和机器学习驱动的新时代。在这一伟大时代背后,也有一家伟大的公司:Deepmind——谷歌的人工智能研发实验室。

DeepMind以其在人工智能领域的成就而闻名,比如其AlphaGo和AlphaZero就是强化学习领域的两大里程碑。最近,这两大创造也引起了大众的广泛讨论。

然而与此同时,来自同一个研发实验室的另一个研究团队同样取得了一项重大成就,不过却少有人问津。实际上,这个由数据科学家和数据工程师组成的团队最近一直在研究一种新算法。去年年底,他们将这一算法公开发布,并把它命名为 “AlphaFold”。

数字生命空间(谷歌解开生命奥秘)(2)

图为Deepmind发现的AlphaFold

创建Alphafold的目标是赋予人类一种全新的能力,即“破译自然”——笔者将在下文对其进行详细阐述。这种能力本专属于大自然,即“生命的圣杯”。

数字生命空间(谷歌解开生命奥秘)(3)

到底发生了什么?

去年年底,DeepMind研发的AlphaFold——一种基于人工神经网的算法,在著名的CASP竞赛中获得第一名。CASP(CriticalAssessment of Structure Prediction)是一项发起于1994年两年一度的科学竞赛,目前已经举办13届,它相当于分子生物学和蛋白质结构学界的奥斯卡奖。CASP评审小组(因此也可以把它当成奥斯卡奖评审团)会评估全球科学家和研究人员所递交的发明项目。或许它没有好莱坞那么光彩照人,但其影响力确实比好莱坞还大。

人们可能会问,分子生物学和蛋白质结构有何魅力?为何能如此令人兴奋?

或许,这就是AlphaFold不像AlphaGo和AlphaZero那样受到公众关注的原因之一。分子生物学?乍一听起来太像化学和生物学了。我们大多数人从上学开始就对这些科目不感冒。蛋白质?它又是什么?当然,我们知道它们的存在和重要性。但是…

蛋白质代表的意义远不止于我们在超市买的产品背面的营养信息。蛋白质是必不可少的,而且必须承认,蛋白质是相当令人兴奋的。

数字生命空间(谷歌解开生命奥秘)(4)

蛋白质—自然的秘密媒介

蛋白质是一种小分子化合物,我们身体的每一个过程都需要它们。它们是一切生理功能的核心,是我们身体每个细胞的引擎,像特工一样控制着发生在人体的一切:我们的荷尔蒙,我们的感情,出生,成长,疾病,幸福,生命,死亡。

它们在细胞分裂过程中传递物质,引发化学反应,保护细胞或形成新的DNA链。它们控制一切,所以他们控制了我们人类。但这又不仅适用于我们人类,地球上的每一个生物——无论大小和形状——都建立于蛋白质结构之上。

从专业上讲,蛋白质是由21种不同的氨基酸组成的链,也称为多肽。每个氨基酸本身都是由以下4种可能的核苷组成的三联体:

  • G(Guanin) G(鸟连素)
  • C (Cytosin) C(胞嘧啶)
  • A (Adenin) A(腺嘌呤)
  • T (Thymin) T(胸腺嘧啶)

数字生命空间(谷歌解开生命奥秘)(5)

3 核苷酸,也叫 Condon,是一种氨基酸。它主要的作用在于构建一个特定蛋白质的氨基酸的确切顺序,编码于人类DNA的双螺旋中。(图片来源— wikimedia).

也就是说,21种相应的氨基酸可以组成64种可能的三联体(4^3—4个核苷的三重体)。例如,氨基酸ala(丙氨酸)编码为 gca、gcg、gcc或gct。

这就是DNA编码功能的本质特性,如果有兴趣,可以选三个核苷酸编码一个特定的氨基酸。但是不能逆转这个过程,也不能对人体细胞中某一氨基酸的原始三连体核苷酸序列进行精确的解码。

数字生命空间(谷歌解开生命奥秘)(6)

核苷酸概览以及其相关的氨基酸

尽管蛋白质是由非常简单的组成单元氨基酸构成,但其具体结构复杂多样。类似于各种小说和故事,虽然只是由26个简单的英文字母所写成,概念相似而简单,但却蕴含非常大的力量。

数字生命空间(谷歌解开生命奥秘)(7)

从26个字母到小说哈利波特我们可以看出,字母表是一个简单却有力量的概念,因为它能够编码信息(Jack Anstey发布在Unsplash上的图片)

数字生命空间(谷歌解开生命奥秘)(8)

蛋白质是一系列氨基酸

除此之外,一些蛋白质有时会相互结合,在细胞中产生更大更复杂的结构。

最后一点,它们是以一种独特且具体的方式在三维空间中折叠链条,这一概念还未应用到小说创作中。(这是一个值得思考的有趣概念——如果字母和单词不仅是二维的,而是三维的,这就意味着它们能编码更多不同的信息。)

在折叠过程中,蛋白质寻找其最低能量状态。就像一条拉长的橡皮筋,松开后会一起滚动。在一个蛋白质链中,存在着各种各样的相互作用力。每个氨基酸相互吸引或排斥,从而影响折叠过程中的最终状态。

数字生命空间(谷歌解开生命奥秘)(9)

3D折叠蛋白质动画(链接来源: Proteopedia.org)

它如何工作

再做一个简单的类比:可以将蛋白质结构与软件代码进行比较。在这里,代码不再由软件工程师编写,而是由大自然编写。这套代码将告诉人们,体内器官和细胞该做什么和不该做什么。例如,何时分裂,何时进行某一化学反应,与另一分子连接,或者什么时候毁灭自己。

既然我们的身体里发生了如此多事情,因此需要很多这样的小程序,并且每一个程序都有自己特定的任务。目前研究显示,人体蛋白质种类数量大约在数万至数十亿之间。

每个蛋白质结构实际上都是一个单独的软件,它以一种非常特殊的方式与所有其他蛋白质相互作用。这在生物学中被描述为一个对接的过程:

数字生命空间(谷歌解开生命奥秘)(10)

蛋白质对接过程

(来源: https://en.wikipedia.org/wiki/Docking_(molecular))

换言之(依然用类比法解释),每个蛋白质都有其特定的应用界面,即API,可允许它与其他蛋白质相互作用。因此,可以把体细胞中所有蛋白质及其API的编排看作是细胞的操作系统。

蛋白质就是大自然生命的操作系统。

一个特殊的操作系统

还有另一个更重要的问题需要解决:氨基酸的确切序列和蛋白质分子的折叠由人类基因决定,换句话说,由人类DNA决定。既然每个人的DNA都独一无二,因此蛋白质亦是如此。

尽管人类基因的变异率只有0.025%,但这个小数字却有着重大影响,这就是为什么会有“我”和“你”的区别。

这同样适用于蛋白质——即使蛋白质的氨基酸序列有微小偏差或者其结构有错误折叠,这也会在细胞的操作系统中引起严重问题。比如,这会引起老年痴呆症、帕金森症或其他疾病等问题。

数字生命空间(谷歌解开生命奥秘)(11)

现在回到Deepmind的杰作-AlphaFold

在过去的几年里,科学家花了很多时间来破译人类DNA。与此同时,人类的DNA被编码并广为人知。

科学家们仍在努力攻克的是这个秘密的第二部分:一种蛋白质应如何折叠才能正常工作。

同理,这就像知道组成某个软件代码(DNA)的所有指令和关键字,但却不知道它们的链接方式(折叠)。只有当所有指令和关键字以正确顺序排列时才有意义,并让软件正常工作。

制药工业生产的药物其实是一种模仿天然蛋白质的人工合成蛋白质。药物之所以产生许多副作用,正是因为这些蛋白质没有正确折叠,因此无法与人类机体100%相容。

蛋白质折叠问题就是生物医药领域的一个“圣杯”问题。

在第13届CASP比赛中,Deepmind团队研发的Alphafold已经提出了一个令人振奋的解决方案。以此,他们不仅赢得了第一名,而且也把竞争对手远远甩在身后。

Alphafolds算法能够正确预测43个给定蛋白质结构中25个的折叠方式。58%的准确率(排名第二的团队仅7%的准确率)意味着在58%的给定蛋白质中,他们能够根据其DNA序列预测其三维折叠结构。

数字生命空间(谷歌解开生命奥秘)(12)

AlphaFold预测的蛋白质结构(蓝色)VS.实际结构

可以将其与哈利波特7本书中1084170个单词的字母进行比较。把每一本书的字母打乱顺序,放到一个巨大的拼字板上,然后逐词重建所有7本书且保证完全正确。这是不可能的,对吧?

数字生命空间(谷歌解开生命奥秘)(13)

Joshua Hoehne在Unsplash上发布的图片

一个简单的数学外推法说明了其背后的复杂性:

数字生命空间(谷歌解开生命奥秘)(14)

Dev Asangbam发布在Unsplash上的图片

想象一个三维立方体,其尺寸为3x3x3,它表示27个可能的立方体块/位置。现在让我们取一个简单的氨基酸链,它只包含两个氨基酸“A”和“B”,并在三维空间中表示出来。

氨基酸“A”可以定位在3D立方体的中间。现在,下一个氨基酸“B”在3D空间中有3x3x3–1=26个可选位置,可以连接到“A”。

现在让我们来看看100个氨基酸链——实际上,这是一个相当短的蛋白质(Titin是目前已知最长的蛋白质,由34350个氨基酸组成)。对于100个氨基酸的蛋白质,可能的折叠量增加到26^100,这一天文数字,末尾有141个零,大于整个宇宙中所有原子的数量(实际上比宇宙还大)。

根据Leventhal的悖论,要想找出这100个氨基酸链中哪一个是正确的,需要花费比宇宙年龄更长的时间来尝试所有可能的折叠方式。难以想象!

在未来,量子计算机可能能够在这样的维度上进行计算。今天,人们需要想出更聪明的解决方案,然后进行暴力计算。

经过数十亿年的试验和进化,大自然显然也为这个问题找到了一个聪明的解决方案。想想看,这个过程在人类细胞中反复进行了无数次,每次仅需几毫秒,而且几乎完美无缺。

自然之智慧依然无法企及。

数字生命空间(谷歌解开生命奥秘)(15)

AlphaFold的解决方案

这似乎不可能,但Alphafold的研究团队第一次参加比赛就做到了!一个并非由分子生物学专家,而是由数据科学家和机器学习工程师组成的团队做到了!

AlphaFold解决方案的核心是基于深度学习技术的巧妙组合。这似乎是解决这个问题的一个显而易见的方法。

但细节令人难以置信,因为已知的蛋白质结构有很多(>150k),所以笔者猜测他们会在这个数据集上进行监督训练。

他们的方法更聪明。基于蛋白质结构中氨基酸的遗传序列,研究小组首先关注的是蛋白质结构的物理性质。

这一步骤的目标是:

(a)预测氨基酸对之间的距离。

(b)预测连接这些氨基酸的化学键之间的角度。

这里应用的数据科学和机器学习技术是递归神经网络(rnns)和长期短期记忆(lstm)网络—一种特殊的rnn。

rnns和lstms广泛用于处理时间序列数据和自然语言处理(nlp)。它们有一种“内置”内存,在这些用例中非常有用。在语境中,这是很明显的——有些词倾向于以某种组合出现,而另一些词则更频繁地以某种顺序出现。在时间序列的情况下,它是相似的—一些事件更可能发生在与其他事件的上下文中。

这同样适用于基因序列中的氨基酸,或者更确切地说是它们之间的距离和角度。真是太聪明了!

这是新的。这些特性的结合导致一对氨基酸在给定结构中彼此靠近的可能性,一个“相互折叠的可能性”—如果你喜欢的话就得分。

数字生命空间(谷歌解开生命奥秘)(16)

图源: Deepmind

使用这些评分功能Alphafold的团队能够

1.在真正的蛋白质数据库中找到匹配的结构。

2.并训练一个生成性神经网络(gan)来发明新的,优化的蛋白质片段。

创造最佳蛋白质片段并评估其得分和整个蛋白质链得分的能力是成功的关键。

现在AlphaFold能够创造一个完整的蛋白质结构,计算它的分数,通过替换和重组氨基酸片段逐步优化它,直到收敛。在这种情况下,收敛意味着:最低能量态折叠结构。

数字生命空间(谷歌解开生命奥秘)(17)

图源: Deepmind

作为最后一步的优化算法,Alphafold应用了梯度下降技术。

数字生命空间(谷歌解开生命奥秘)(18)

图源: Deepmind

数字生命空间(谷歌解开生命奥秘)(19)

尾记

DeepMind在解决蛋白质折叠问题上迈出了巨大的一步。解决那个问题似乎已是时间问题。

AlphaFold对我们人类、气候、健康、能源的影响将无比巨大,这也在很大程度上归功于人工智能的应用。

笔者对未来充满信心,Alphafold目前正在开发casp14版本的解决方案。这一版本的推出,将显著提高现有58%准确率的基准。因此,笔者还没有发表一篇关于AlphaFold解决方案的论文,来探讨其背后细节。

让我们一起期待着2020年底的CASP14吧!

数字生命空间(谷歌解开生命奥秘)(20)

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页