发现具有所需属性的化学品是一个漫长而艰苦的过程。包含了数百万分子的量子力学特性的可靠精选数据集正变得越来越可用。从这些数据集中获取化学知识的新型机器学习工具的开发有可能彻底改变化学发现的过程。在这里,我评论了这个新兴领域最近的突破,并讨论了未来几年的挑战。
分子和材料的计算设计和发现依赖于日益增长的化学空间的勘探1,2(参见图 1)。新药、抗病毒药物、抗生素、催化剂、电池材料
以及具有定制特性的一般化学品的发现和配方,需要转变范式,以在广阔的化学领域的未知领域进行搜索。从量子力学 (QM) 的基本角度来看,这种范式转变源于这样一个事实,即分子特性表现出复杂的相关性
,在多性质优化算法中产生候选分子的全局最优化,实现“设计自由”。例如,以超过 100,000 个类似药物的小分子的数据为例,发现它们的分子电子(HOMO - LUMO)间隙与它们的极化率完全无关,与广泛引用的化学规则相反。这意味着可以设计高导电性和弱相互作用
的分子,或对介电击穿表现出稳定性
但仍具有强相互作用的分子
。
显然,化学发现不仅涉及发现“这种特殊分子”,还涉及预测反应途径和分子之间的相互作用、优化催化条件、消除不良副作用以及许多其他重要的自由度。鉴于这种巨大的可能性空间,化学设计和发现的统计视图是必须的(见图 1)。这是当前应用于分子和材料科学的机器学习 (ML) 技术兴起背后的主要原因。目前的情况可以与 1980 年代和 1990 年代量子化学和固态电子结构代码的持续发展对分子和材料建模所取得的巨大进步进行比较。稳定更精确的量子力学近似和日益高效的电子结构代码的发展导致了“化学建模革命”。同样,新的 ML 方法的发展,结合量子力学和统计力学的基本原理,以及越来越多的可用分子大数据,可能会导致“化学发现革命”。
化学发现和机器学习必然会一起发展,但要在两者之间实现真正的协同作用,需要解决许多突出的挑战。使用 ML 来提高分子模拟的准确性和效率的潜力已被确立
,这一点毋庸置疑。数据驱动的高通量材料发现也已确立为自己的领域。受物理启发的 ML 算法可以识别新的候选药物
,在无定形材料中发现新相
,利用基本精确的量子力进行分子动力学
,并提供对化学环境的前所未有的统计洞察力。到目前为止,这些应用大多是在理想化条件下完成的。未来的工作应该集中在实现分子模拟和 ML 方法的更紧密嵌入
,通过 ML 算法将 QM 和统计力学结合起来,开发共价和非共价分子
相互作用的通用 ML 近似值,以及开发有针对性地探索大型化学空间的算法。显然,所有这些进步都应该在不断增长的微观和宏观分子特性的社区策划数据集上进行持续评估。
任何科学领域中 ML 模型的质量和可靠性都取决于数据可用性的增加
。2010-2012 年机器学习在分子和材料建模中的首次应用依赖于包含 描述符
的发展已经在过去的8年增长了至少两个数量级,这对增加ML模型的预测能力至关重要的。如今,高级 ML 模型能够通过仅从 1% 到 2% 的数据中学习来实现大型分子数据集 QM 属性的预测
准确性。 这种数据效率和准确性对于实现计算机化学发现至关重要。
最近,重点已经转向建造和探索越来越大的化学空间。QM9、ANI-1x和QM7-X等数据集包含多达
ML 在分子建模中的另一个独特应用是 ML 驱动的分子动力学模拟
。ML 力场能够将高级 QM 的准确性与经典力场的效率相结合。例如,梯度域 ML 力场能够对小分子进行 MD 模拟,同时对电子和原子核进行基本精确的量子处理——这是一项在几年前被认为无法实现的任务。对于元素固体,高斯近似势 (GAP) 现在用于对具有数千个原子的晶胞进行 MD 模拟,并获得新的见解,例如,物质的非晶态
。
化学空间的广泛探索和单分子的长时间尺度 MD 模拟都为化学发现提供了工具。ML 的另一个重要应用是具有目标特性的分子的逆向设计
。最终,机器学习还应该能够在计算机引导下发现新的分子和材料,并用实验数据证实这些发现。实际上,在寻找有机发光二极管、氧化还原液流电池和抗生素以及许多其他示例中,已经取得了成功的 ML 驱动发现。
用于化学发现的机器学习最显着的方面是化学空间的相应统计视图
通常能够提出新问题并获得新见解。在化学空间长时间的整体分析将发现不容易发现的分子特性的,为新的化学反应机制提供线索,甚至提出新的物理关系。此类新发现通常由跨学科研究人员团队做出,他们能够将他们对物理定律和约束
、化学直觉
和复杂 ML 算法
的知识协同结合。
目前机器学习在化学发现中的成功应用只是触及了可能性的表面。要实现“化学发现革命”,有许多概念、理论和实践挑战有待解决。在这里,我将讨论我认为目前最紧迫和最有趣的挑战。
通用 ML 方法应该能够准确预测分子的能量和电子特性
。此外,这种方法应该在平等的基础上统一描述
成分(分子中原子的化学排列)和构型(原子在空间中的物理排列)自由度。大多数现有的 ML 方法仅描述相关
自由度和物理化学可观察值的受限子集
。该领域的进一步进展需要为图1所示的各种系统和物理化学特性
开发通用 ML 模型 。
从原子相互作用的角度来看,当前的 ML 表示成功地描述了局部化学键合
,但它们完全错过了长程静电、极化和范德华色散相互作用。将分子间相互作用理论
与 ML 相结合是未来研究复杂分子系统的重要方向。
一个新兴的想法是将 ML 与近似哈密顿量相结合,用于基于密度泛函理论、紧束缚、分子轨道技术或多体色散方法的电子相互作用。ML 方法用于预测哈密顿量参数
,并通过相应哈密顿量的对角化计算量子力学可观测量。面临的挑战是在ML 和近似哈密顿量
之间实现更紧密的集成,并在预测精度和计算效率之间找到适当的平衡。
ML 预测的验证最终需要与实验观测值进行比较,例如反应速率、光谱观测、溶剂化能、熔化温度以及其他相关量
。计算这些可观测值需要 QM、统计模拟和快速 ML 预测的紧密集成,所有这些都集成在一个全面的分子模拟框架6。
解决上述许多挑战需要提出创造性的跨学科方法,结合量子力学和统计力学、化学知识和复杂的 ML 工具,牢牢地基于不断增长的数据集,这些数据集涵盖了广阔的化学领域越来越广泛的领域。