black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)

最近,蛋白质结构预测领域的两项重要工作RoseTTAFoldAlphaFold2分别以“Accurate prediction of protein structures and interactions using a three-track neural network”、“Highly accurate protein structure prediction with AlphaFold”为题发表在ScienceNature上。

文章中红字为AlphaFold2的介绍,黑色为RoseTTAFold的介绍

——背景——

AlphaFold2于去年的CASP14蛋白质结构预测比赛上以绝对的优势夺冠,并且极大推进了该领域的发展。而最近,借助AlphaFold2开发者——DeepMind团队提供的有限信息,David Baker课题组结合自己深刻的理解开发出了蛋白质结构预测方法RoseTTAFold,并且取得了接近AlphaFold2的效果。

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(1)

图1. RoseTTAFold网络架构概览

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(2)

图2. AlphaFold2网络架构概览

——算法——

MSA(多序列比对)与template(模板)信息的预处理:

RoseTTAFold

RoseTTAFold使用nlp(自然语言处理)的方法来直接从MSA中学习共进化信息。MSA的序列会按照260长度做cropping(截断),因为序列太长在网络中做attention运算会加重gpu的内存负担。MSA feature的前处理包括:残基维度上,MSA中21种残基(包括比对空缺)被embedding成指定长度的向量,随之添加正弦的positional encoding提供位置信息;序列维度上,添加了根据MSA与亟待预测的序列(query sequence)的关系信息。

搜索到的template提供的信息为比对结构域的2D残基对信息,包括残基对间距离与取向。此外,template通过HHSearch搜索产生的一些指标也会加入2D template信息中。template信息会经过axial attention(template方向与residue方向)、pixel attention的预处理,并加入query sequence的embedding与positional encoding信息。

AlphaFold2

相较于RoseTTAFold,AlphaFold2的MSA会有更多的处理。按照与query sequence 的identity远近,MSA序列在序列方向上会被随机地一块块删除,这么做是为了节省运算内存并同时保持序列的多样性。接着,剩下的序列会被聚类,只保留聚类中心的序列作为模型的MSA输入。未在聚类中心的序列会被随机抽取作为extra_msa输入网络。

这里,AlphaFold2也是直接用MSA学习共进化信息,但AlphaFold2利用mask策略,每个位置有15%的概率被mask,然后按照一个具体的规则替换,最后看这个被mask的residue的恢复度。这样有望能进一步挖掘共进化的信息,并能够将embedding做的更好。这一项损失的影响也能够在他给出的loss function里进一步体现。

AlphaFold2同样对序列做了cropping,其embedding流程中pair features(即pair representation)直接由query sequence信息初始化,而后再借助pointwise Attention加入template的距离信息。MSA features(即MSA representations)由query sequence与MSA共同投影得到,并加入了template的角度信息。此外,AlphaFold2中的位置编码是相对位置编码,这种编码能更好处理长程的文本信号。

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(3)

图3. AlphaFold2的embedding部分

2D信息(MSA features与pair features)的相互更新:

RoseTTAFold

Embedding预处理后的MSA features经过了axial attention,包含学习残基方向的残基间关系的row attention,与学习不同序列方向的column attention 。这里的rowattention与常规不同:除了self-attention中的Q(query)、K(key)以外这里的attention元素还有一个W,以表达序列匹配部分残基信息的重要性(减少未匹配部分的信息贡献)。

受到CopulaNet的启发,MSA features被投影到低维后通过outer production捕捉残基间的联系,再依据序列的权重聚合,与加权平均后的MSA features和前面残基方向的attention map合并。合并后的张量经过2D卷积,更新为新的pair features。(图4左)更新后的pair features被对称化,又可以通过attention来更新MSA features。(图4右)以上便是模型中的2D track,如此循环的更新可以让学习的共进化信号捕获能力提升,pair间的空间信息接近于真实。

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(4)

图4. RoseTTAFold的2D track部分

AlphaFold2

AlphaFold2中的2D track —— MSA features与pair features的更新由Evoformer模块执行(图5)。

此处AlphaFold2在处理MSA features时,也使用了axial attention,但是attention使用了门控机制(gated)。还有不同的是,在使用row attention捕捉残基间关系时,还加入了pair features的bias,使得pair与MSA的信息更加同步。outer production的使用与RoseTTAFold相似。之后为了借助类似三角不等式的规律精炼pair features信息,AlphaFold2使用了triangular multiplicate与triangular self-attention对所有三角关系更新。其中,triangular multiplicate会使得边ij(残基i、j的Cα间距离)接收到ik、jk边信息的更新。triangular self-attention部分中,边ij的query会乘以ik的key再加上边jk的bias得到attention权重,乘以自身ij的value后对ij所在的所有三角求和,最终被门控地更新到ij边的信息上。

在Evoformer模块执行之前,extra_msa信息会经过与Evoformer中相似的方式更新pairfeatures。最终,Evoformer模块中还会从更新的MSA features中抽提出新的query sequence feature (即single representation)。

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(5)

图5. AlphaFold的Evoformer模块

3D结构的优化:

RoseTTAFold

而后的3Dtrack模块也是RoseTTAFold进步明显的又一利器,该模块可以学习优化N, Cɑ, C的坐标,提升结构预测的精度。模型先通过graph transformer模块预测出N,Cɑ,C原子的初始坐标。(图6左)而后这些坐标会被SE(3)-Transformer模块(图6中)结合已有信息,遵循体系坐标的旋转平移不变性,预测出Cɑ原子的偏移与新的N、C到Cɑ的向量。从而起到结构优化的作用。

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(6)

图6. RoseTTAFold的3D track模块

随后,类似于2D track中的MSA features与pair features 的迭代更新。这里最新一步的三维结构提供的距离信息会以不同的cut-off做masked attention(只关注周围的残基信息),帮助MSA共进化信号的学习更新(图6右)。3D track部分pair features的更新方式与2D部分类似。

RoseTTAFold最终的三维结构预测有两种方法可供选择:1)推断得到的pair features(即distance map)作为constraint交给pyrosetta进行折叠,折叠15个构象并取最优的5个 2)由SE(3)-Transformer对骨架坐标迭代优化生成只有骨架的三维结构(end-to-end模型),直至达到收敛标准。

此外,RoseTTAFold还可以预测complex的结构,只需要将不同蛋白的MSA融合,并在positional encoding时,给不同链residue number加上200,以提示模型存在不同链,其余流程基本与单体预测相同。

AlphaFold2

3D模型这部分(图7),AlphaFold2利用单个残基片段,使用施密特正交变换,将C、N、Cɑ中的Cɑ放在原点建立局部的3D坐标向量,随后通过Invariant point attention用query sequence feature、pair features的信息,实行旋转平移不变性,将局部坐标转移到全局坐标,来更新query sequence feature。接着借助更新的更新query sequence feature信息,实现三个原子的位置约束和二面角预测更新,最后将主链连起来后利用预测的侧链X_i角度进行全重原子蛋白结构预测。最后将预测的这些结果重新返回给之前的向量进行迭代3次(这一步有点类似于RNN的操作)来给出最终蛋白3D结构。

最终,AlphaFold2网络的结构会经过Amber99SB力场结合约束进行能量最小化。

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(7)

图7. AlphaFold2的Invariant point attention模块

网络优化的损失函数:

RoseTTAFold

RoseTTAFold网络的loss function由三部分构型distance map的交叉熵、骨架坐标的RMSD以及Cɑ-lDDT得分(局部比对指标)。随着训练的进行,RMSD的权重会从0.05逐渐提升至0.2(其余项比重为1)。

AlphaFold2

AlphaFold2的loss function在训练与fine-tuning阶段如下:

其中LFAPE为各个原子在local坐标下的坐标差异;Laux为辅助项,包括预测torsion转角的规范化、Cα的FAPE,帮助稳定训练;Ldist为distance map的交叉熵;Lmsa项为masked msa模型学习补全序列的交叉熵。

fine-tuning阶段多出的两项中:Lexpresolved为通过Evoformer模块输出的query sequence feature预测每个残基是否处于被实验解析的template中;Lviol反应各个化学键是否clash。

很重要的一点是,模型中还有一个小模块预测每个残基的lDDT(local superposition-free score),Lconf为预测的plDDT与lDDT的交叉熵。有了这个训练好的plDDT,就可以将每个残基处的plDDT作为预测结构中该残基结构的置信度。

——模型表现——

根据RoseTTAFold文章的结果(图8),CASP14测试集上,AlphaFold2仍然处于领先,而RoseTTAFold相较于以往的结构预测方法,也获得了较大提升。

其中,pyrosetta版本的RoseTTAFold略优于end2end版本,这可能由于end-to-end模型缺乏对侧链坐标的推断信息以及SE3-transformer模块优化的困难性。

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(8)

图8. 测试集表现

我们对两款结构预测程序进行了试用,结构预测的对象是2021年8月4日刚发表在PDB数据库中的7DF8蛋白,该蛋白有1247个残基。在搜索msa与template阶段,同样调用20个cpu核心,AlphaFold2一共用时约4.3 h,而RoseTTAFold对应的databse略小,只需要约约1.5 h;网络的推断均在V100-SXM2GPU上进行,AlphaFold2约耗时1.7 h 完成5个结构的网络推断与力场优化,RoseTTAFold也大约耗时25 min完成网络推断。但是由于蛋白较大,后续并行15个pyrosetta结构优化并挑选最优的五个结构,平均耗时约5.5 h。

black-scholes模型需要什么数据(结构预测浅析RoseTTAFold与AlphaFold2)(9)

图9. 左为7DF8晶体结构(紫色)与pyrosetta版RoseTTAFold建模结构(绿色,RMSD=2.366 Å)比对;右为7DF8晶体结构(紫色)与AlphaFold2建模结构(蓝色,RMSD=1.517 Å)比对

在小的蛋白上,由于pyrosetta部分的速度会快很多(文章中提及小于400个残基折叠时间在1小时左右),RoseTTAFold的速度会有明显的速度优势。

如果想了解更多关于AlphaFold2的测评可以访问:

http://221.216.6.54:8085/clshpc/quession/shownews.php?lang=cn&id=76

——总结——

总结一下,AlphaFold2仍领先RoseTTAFold的可能原因有:计算资源的差距限制了模型的规模(TPU资源)、RoseTTAFold模型缺少侧链坐标的推断、DeepMind团队强大的模块创新能力(如AlphaFold2中的triangular self-attention,Invariant point attention),此外AlphaFold2的网络模型明显具有更多的细节性trick(如msa与pair feature更新过程中的一些transition层设计、loss function的辅助项)。

但是,这也并不意味着AlphaFold2碾压了RoseTTAFold,RoseTTAFold有着更轻盈的体量,因此更容易训练,而且对计算资源的依赖性也更小。

参考文献:

Jumper et al.,(2021). Highly accurate protein structure prediction with AlphaFold. Nature. https://doi.org/10.1038/s41586-021-03819-2.

Baek, et al.,(2021) Accurate prediction of protein structures and interactions using a three-track neural network. Science, 15, eabj8754. https://doi.org/10.1126/science.abj8754.

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页