神经网络蛋白质结构预测(苏州大学NatureCommun机器学习预测晶体结构)
晶体结构预测,是凝聚态和化学科学长期以来面临的挑战。在此,来自苏州大学的等研究者报告了一种用于晶体结构预测的机器学习方法,该方法使用图网络(GN)在给定的数据库中建立晶体结构和生成焓之间的关联模型,并利用优化算法(OA)加速寻找生成焓最低的晶体结构。相关论文以题为“Crystal structure prediction by combining graph network and optimization algorithm”发表在Nature CommuniCations上。
论文链接:
https://www.nature.com/articles/s41467-022-29241-4
在实验合成之前预测给定化学成分下的晶体结构,已经吸引了凝聚态科学的重大兴趣。早期基于经验规则的尝试提供了结构的定性描述,例如,Pauling的离子晶体五法则,Goldschmidt的钙钛矿可形成性容限因子,以及用于分类二元半导体化合物的锌共混(ZB)/纤锌矿(WZ)和岩盐(RS)结构的尺寸描述符。由于密度泛函理论(DFT)具有可靠的能量计算能力,目前最先进的晶体结构预测(CSP)方法主要是将DFT计算与结构搜索算法(拟)随机搜索、模拟退火、遗传算法、粒子群优化(PSO)、以及不同的进化过程。这些方法通过搜索算法和采用DFT计算的能量,作为稳定性度量广泛地探索候选结构。必要的DFT计算需要在结构搜索过程中评估大量的结构候选者,因此非常耗时。例如,需要进行70和120个DFT结构优化才能确定GaAs(电池中8个原子)的ZB结构和SiO2(电池中6个原子)的α-石英结构分别为12。
机器学习(ML),在材料科学中的进展最近集中在材料性质预测方面的应用,如生成焓(ΔH)、吉布斯自由能、带隙、波函数和电子密度、X射线吸收光谱和相变。这种方法的精度接近量子力学计算;然而,计算成本要低几个数量级。除了组成原子的影响外,它们的空间排列(即晶体结构)对材料性能的影响最近通过结构表征方法(如基于Wyckoff种矩阵的方法、Voronoi镶嵌方法和图网络)进行了分析。晶体(Crystal)可以表示为一个向量({vi}i=1,N, {Ri}i=1,N, L),{vi}和{Ri}元素特性和第i个原子的坐标,N是原子在一个周期单元的总数,和L是向量 (a, b, c, α, β, γ) 定义单胞的形状。在这些方法中,晶体结构被转换为具有物理意义和算法可读的数据格式,例如对称不变矩阵、键构型或晶体图,从而可以建立晶体与其生成焓之间的相关模型,如下所示:ΔH=f(Crys({vi}i=1,N,{Ri}i=1,N,L))(1)。原则上,在给定的{vi}i=1,N, L时,通过优化({Ri}i=1,N,L)使ΔH最小化,可以有效地利用式(1)执行CSP。这种方法用ML模型代替DFT计算;因此,它具有显著加速CSP的潜力。
尽管机器学习有潜在的优势,但基于ML的CSP的实际方法仍然存在挑战。首先,ML模型应对晶体结构有灵敏的响应;因此,对晶体结构有约束的固定结构模型和对称不变模型,在确定具有任意胞体形状和原子坐标的基态结构(GSS)时是不适用或有限制的。其次,DFT计算的高精度得益于相对于实验的误差的系统抵消,而所声称的ML模型的DFT水平精度是由稳定的晶体结构组成的训练数据获得的。由于在搜索过程中,大多数候选结构都是亚稳态的或不稳定的,而它们的相对能量是决定GSS的关键,因此将ML模型扩展到结构搜索是值得怀疑的。最后,需要一个适合ML模型的优化算法。
在此,研究者构建了一个框架,在给定的数据库中建立了晶体结构与生成焓之间的图网络(GN)模型,并将该模型与CSP的优化算法(OA)相结合。框架(数据库 GN模型 OA)非常灵活,允许材料数据库、晶体图表示和OA的变化。研究者采用Chen等人开发的GN,因为它是为分子和晶体设计的,有利于未来的框架扩展到分子。研究者分别使用1.3版开放量子材料数据库(Open Quantum MaterialsDatabase, OQMD)和Matbench formation energy数据集(MatB)训练GN模型和随机搜索(randomsearch, RAS),采用粒子群优化算法(PSO)和贝叶斯优化算法(BO)作为OAs。研究者研究了不同组合的性能,并预测了表1中列出的29种八元组二元化合物的晶体结构,包括IV族晶体(C, Si), I–VII 族晶体(I = Li, Na, K, Rb, Cs;II-VI族晶体(II = Be、Mg、Ca、Sr、Ba、Zn、Cd;VI = O, S)和典型的光伏半导体GaAs, CdTe和CsPbI3(钙钛矿光伏的无机代表)。对比研究表明,在MatB上结合BO训练的GN模型,即GN(MatB)-BO,能够以最佳的精度预测晶体结构,且计算成本极低。该方法具有图网络、数据库和优化算法的灵活性,有利于该方法的进一步发展和完善。该研究为数据驱动晶体结构预测开辟了一条新途径。
图1 GN-OA方法流程图。
图2 GN模型的性能。
图3 GN-OA的流程和性能。
图4 基于GN-OA和DFT的GSS比较。
图5 计算成本的比较。
综上所述,研究者构建了一个灵活的框架,在给定的数据库中利用图网络建立了晶体结构与生成焓之间的ML模型,并将该模型与CSP的优化算法相结合。应用该框架对29个典型化合物的晶体结构进行了预测。对数据库、GN模型和优化算法的多种组合进行比较研究表明,在MatB上训练的GN模型结合贝叶斯优化结构搜索[GN(MatB)-BO],虽然精度低于DFT结果,但可以预测晶体结构,计算成本比基于DFT的方法低三个数量级。
同时,当前的GN-OA方法的局限性也很明显。在方法上,晶体结构表征、结构搜索、算法并行化等方向需要进一步发展,以更有效地预测更复杂和未知的结构。该研究为数据驱动的晶体结构预测开辟了一条新的途径,而无需在结构搜索中使用昂贵的DFT计算。(文:水生)
本文来自微信公众号“材料科学与工程”。欢迎转载请联系,未经许可谢绝转载至其他网站。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com