蛋白质盐析和变形(从冷冻电镜电子密度图识别蛋白质二级结构)
——背景——
冷冻电镜被越来越多地应用在解析大分子结构上,但在2016至2018年期间上传到电子显微镜数据库(EMDB)的大分子结构中,有超过50%的结构的分辨率是在5到10埃甚至更低,这些中等分辨率的冷冻电镜谱(EMmap)很难用于结构的从头模建,比如对于蛋白质,5-8埃分辨率的冷冻电镜谱只能看到部分的二级结构,而难以知晓完整的主链。
可以想见,虽然冷冻电镜的分辨率不断取得突破,但是受限于样品性质和技术手段,必然还是有很多冷冻电镜谱是处在中等分辨率,为了更好地解析这些冷冻电镜谱中的结构信息,研究人员开发了其他的检测二级结构的技术,比如通过与蛋白质数据库(PDB)中的已知结构进行对比,识别冷冻电镜谱中的螺旋和beta折叠的方法。而这篇文章中的作者是通过深度学习识别特征电子密度模式来检测二级结构。
本文的通讯作者是来自普渡大学的Daisuke Kihara,于今年7月份发表在nature methods上。
——模型——
1. 数据集
作者使用了来自SCOPe数据库中的2000个代表蛋白,利用e2pdb2mrc程序构建模拟的冷冻电镜谱(分别有6埃和10埃两种分辨率),用于训练模型识别不同二级结构对应的特征电子密度分布模式。保留没有用于训练的34个蛋白结构的冷冻电镜谱和43个实验得到的冷冻电镜谱,用于测试模型的效果。
2. Emap2sec模型结构
模型由两部分构成,第一个部分/阶段输入某个中心位置及其邻近的113 立方埃区域的电子密度,经过5层三维CNN层,输出中心位置的二级结构预测;第二部分/阶段(精调阶段)输入某个中心位置及其邻近的33立方埃区域的二级结构预测概率(来自第一阶段的输出),经过一个全连接网络,输出中心位置的新的二级结构预测。
图1 Emap2sec 模型结构
——效果——
残基水平的平均Q3准确率,对于分辨率为6埃和10埃的模拟电子密度图,分别达到83.1%和79.8%,而对于实验获得的电子密度图,则达到64.4%的平均准确率。
图2 上)从分辨率6埃和10埃的模拟冷冻电镜识别二级结构的准确率;下)从分辨率5.0-9.5埃的实验冷冻电镜识别二级结构的准确率
*蛋白质二级结构预测准确度Q3定义:
其中T是所有残基数目,
是被准确预测为alpha螺旋的残基数,其他两项以此类推。
——总结和创新点——
作者主要采用了三维卷积神经网络的方式,实现了从电子密度图到二级结构的端对端转化,是深度学习应用的新尝试,但是遗憾的是,文中没有将其他方法的结果与作者的结果进行比较,所以这种尝试是否具有明显的优势,还不得而知。另外,由于这是一种新的模型,数据集的准备需要从头开始,这部分也有比较好的借鉴意义。
参考文献:
Subramaniya, Sai Raghavendra Maddhuri Venkata, Genki Terashi, et al. "Protein secondary structure detection in intermediate-resolution cryo-EM maps using deep learning." Nature methods (2019): 1. DOI: 10.1038/s41592-019-0500-1
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com