Machine learning for advanced energy materials

强调 • 介绍了实现碳中和的应用路线图。 • 提供了对基本 ML 教程的全面回顾。 • 讨论了数据驱动的材料科学与工程的最新进展。 • 突出显示了成功的 ML 应用程序和剩余挑战的关键。

摘要

由于开发能源材料的传统方法的各种挑战，包括低成功率、高时间消耗和高计算成本，先进材料的筛选及其定量结构-活性关系的建模最近已成为能源材料领域的热门和趋势话题之一。随之，需要新的研究理念和技术来推动能源材料的研发。因此，人工智能和机器学习的最新进展增加了人们的期望，即数据驱动的材料科学将彻底改变科学发现，为能源材料的发展提供新的范式。此外，数据驱动材料工程的当前进展也表明，机器学习技术的应用不仅会极大地促进先进能源材料的设计和开发，还会促进它们的发现和应用。本文介绍了开发新能源材料对促进全球碳中和的重要性和必要性。还提供了对机器学习基础知识的全面介绍，包括开源数据库、特征工程、机器学习算法和机器学习模型分析。随后，讨论了数据驱动材料科学与工程的最新进展，包括碱性离子电池材料、光伏材料、催化材料和二氧化碳捕获材料。

1 . Introduction

随着全球环境问题的日益严重，在未来几十年认真发展清洁和可再生能源技术以实现碳中和社会已成为全球共识[1 , 2]。实现绿色能源大规模应用的关键手段之一是开发先进的能源材料，以实现高效的能量转换和稳定的电力输出。发现和设计能源材料的传统方法包括实验室探索和模拟。因此，这是一个耗时的过程，同时，探索的新材料样本数量也有限。此外，这些传统方法的成功概率较低。在过去的几十年中，密度泛函理论（DFT）计算方法被频繁应用于筛选新材料。这主要是因为 DFT 能够支持大空间搜索并提供更高的计算精度。但是，采用 DFT 计算仍然存在一些缺点，例如计算成本高。

人工智能（AI）技术在各个研究领域的最新进展表明，人工智能在寻找新型节能材料方面的应用潜力巨大。而人工智能是一种使机器能够模拟人类行为的技术；机器学习（ML）作为AI的子集，利用算法和模型从过去的数据或现有的知识学习。因此，ML由于其固有的强大的海量数据处理能力和高维分析能力，可用于加速材料开发。例如，为了获得新的聚合物膜材料，Barnett 等人开发了基于高斯回归过程的 ML 模型。使用大约 700 种聚合物的气体渗透率数据，ML 模型预测了超过 11,000 种未经测试的均聚物的气体分离行为。在其他领域，Gayon-Lombardo 等人应用深度卷积生成对抗网络 (DC-GAN) 生成多相多孔电极真实的n相微观结构数据。结果表明，所提出的方法可以大大降低电化学模拟的计算成本。除了上述成功的应用案例，过去十年数据驱动材料科学的进步也表明，ML技术可以对新材料的发展做出重大贡献。ML技术在材料界最常见的应用之一是筛选高性能材料，这高度依赖于ML算法的广泛搜索能力和精确分类。此外，使用 ML 模型来实现对材料特性的准确预测也逐渐受到越来越多的关注。原因是ML预测的信息不仅可以揭示被测材料的特性，还可以指导下一轮实验。因此，借助 ML 技术可以实现合理的材料设计。就前面提到的能源材料开发挑战而言，ML因此被认为是解决当前问题的有效工具，可以促进先进能源材料的设计、发现和应用。此外，通过将机器学习与智能机器人相结合，可以进一步加快能源材料的开发进程。上述这些前景和进展，不仅验证了材料基因组学的可行性，也展现了加速零排放社会发展的潜力。

因此，对数据驱动材料科学的最新尝试进行总结可以促进材料基因组学计划 (MGI) 的发展，并为未来的前景提供见解。现有一些与 ML 相关的综述用于开发先进材料。例如，刘等人详细回顾了 ML 如何加速材料的发现和设计。但是，他们没有包括最新的发展。顾等人专注于 ML 在可再生能源材料中的应用。但是，他们没有提供有关 ML 技术教程的详细信息。李等人展示了 AI 策略如何应用于材料开发的不同阶段，而文章中提到的案例研究较少集中在能源材料上。陈等人概述了ML 技术及其在材料研究中的应用。然而，数据驱动材料科学的未来前景应该进一步扩大。Correa-Baena 等人从理论、政策和投资的角度总结了通过自动化和机器学习发现材料的最新尝试。然而，其他重要进展并未包括在内。而且，ML预测的能源材料开发设计规则和材料合成也没有得到足够的重视。

在本文中，我们全面回顾了数据驱动材料科学与工程的最新进展和发展，指出了 ML 在开发先进能源材料方面的基础和应用的当前研究现状和未来前景。首先，提出碳中和路线图，揭示开发新能源材料的重要性和必要性。其次，全面介绍ML基础教程，包括开源数据库、特征工程、典型ML算法详细介绍、ML模型有效性分析等。第三，结合碱性离子电池材料、光伏材料、催化材料和二氧化碳捕获材料。此外，对于这些能源材料都强调了ML成功应用的相关方法及其剩余挑战。此外，还讨论了未来数据驱动材料科学的一般观点，例如数据基础设施（数据稀缺性和标准化）、ML 技术（自动闭环优化框架和黑盒模型的可视化）、实验探索（机器人驱动实验室）、跨学科交流和支持政策。

2 . 能源材料的发现

2.1 碳中和路线图

为了实现碳中和，减少CO2排放已成为全球共识。如图1所示，表明电力工业和运输部门的CO2排放之和超过CO2排放总量的一半。因此，需要采取有效措施减少电力行业和交通运输部门的CO2排放。对此，政府和机构出台了多项支持政策，加快发展可再生能源，实现交通零排放，包括欧洲 BATTERY 2030+ 、中国可再生能源十三五规划和巴黎气候协定。为清晰展示未来无化石能源社会的能源应用场景，图2展示了实现碳中和的路线图，包括发电、储能和转换以及能源利用。图1 1970 年至 2019 年全球化石 CO2排放量

图2 未来能源路线

在发电方面，最理想的能源是从水、阳光、风和生物质等天然资源中收集的可再生能源。实现碳中和，最可行的途径是大规模开发和应用可再生能源替代化石燃料。目前具有大规模应用潜力的清洁能源包括太阳能、风能、水能和核能。以中国为例，要到 2060 年实现碳中和，就必须部署负排放技术，大规模利用清洁能源。因此，可再生能源技术的发展对实现碳中和社会具有重大影响。基于以上分析，可再生能源将是未来能源发展的基础。然而，可再生能源容易受到自然环境的影响，例如在夜间或多云天气条件下，由于阳光的减少或缺乏，可用的太阳能会减少，从而提供间歇性的能量输出。在这种情况下，直接接入电网进行清供电，很难保证这些能源的最大利用。因此，探索新的能量存储和转换技术成为必要。典型的储能技术包括压缩空气、抽水蓄能、飞轮等。近十年来，出现了超级电容器、充电电池、液流电池、燃料电池等先进的能量转换和存储技术，并得到快速发展。近年来，以氢能为代表的电化学储能技术受到广泛关注。该技术将清洁的电能转化为气态或液态燃料，便于储存和运输。此外，通过与 CO2或 N2 结合在空气中，氢能可以转化为能量密集的碳中性液体燃料（如甲醇和氨）。通过这种方式，从可再生能源中获取的能量可以进行转换和储存，为建筑、交通、工业等耗能终端提供无限的绿色电力。然而，目前的能量转换和存储技术不能满足未来的能源需求。解决上述挑战的最有前景的前景之一是开发先进的能源材料，这可以大大提高能源转换效率，促进新能源技术的大规模应用。综上所述，开发高性能的新能源材料势在必行。

2.2 开发技术

传统的能源材料开发方法包括实验分析、理论计算和模拟。如图3所示，结合实验和计算，如DFT计算，可以加快材料开发的进程。然而，DFT 计算有其缺点，例如高时间消耗和计算成本。随着人工智能和大数据技术的引入和不断进步，ML在筛选高性能能源材料中的应用得到了广泛的研究。通过使用从实验或 DFT 计算中获得的数据，可以开发一个数据库。ML算法基于数据库和选定的特征，可以实现大规模数据建模、分类和优化。结果，有希望的候选材料将被筛选出来。此外，ML算法可用于预测能源材料的宏观和微观特性。而且，可以进行特征工程，以确定不同描述符的重要性，从而为下一轮建模或分类提供有效指导。综上所述，ML技术的应用可以极大地促进先进能源材料的发展。图3 能源材料的传统和高通量开发方法

3 机器学习教程

ML是AI中算法的一个子集，它试图根据历史数据发现和推断隐藏的规律，然后对未标记的数据集进行预测或分类。随着数据技术的发展，ML已经成功应用于多个领域。近二十年来，ML技术在先进能源材料筛选中的应用逐渐成为研究热点，加速了新能源材料的发现。图4展示了能源材料设计和发现的典型 ML 应用流程，包括 ML 数据库构建、特征工程、ML 算法选择和 ML 模型应用。ML 应用程序的详细信息将在以下部分中说明。图 4 ML技术在材料开发中的一般应用程序

3.1 数据库建设

由于建模数据的质量决定了 ML 模型的准确性，因此数据库在 ML 在能源材料开发中的应用过程中发挥着重要作用。从材料数据库的发展历程来看，现有的数据库大多是近二十年来发展起来的。2006年，材料科学家Ceder在麻省理工学院发起了一个名为“材料基因组计划”的研究项目，开始将AI算法应用于锂离子电池材料的预测和数据收集。四年后，该项目包含了大约 20,000 份预测材料。2011年，由于美国政府启动了同名项目，材料基因组项目因此变为著名的Materials Project。同期，Ceder 团队的前成员 Curtarolo 在杜克大学建立了新材料基因组学中心，并创建了另一个著名的材料数据库，即 AFLOW。此后，世界各地开发了许多材料数据库。例如，Chris Wolverton 在 2013 年创建了开放量子材料数据库 (OQMD)，该数据库专注于基于 DFT 计算的无机晶体结构，包括大约 400,000 种假设材料。EPFL 主任 Marzari 开发了一个名为 Materials Cloud 的数据库，该数据库专注于数据驱动的材料科学与工程中资源的无缝共享和传播。在中国，按照第十三个“五年计划”，40个相关MGI项目得到资助，以促进发展高通量基因组学的材料。随后，中国于2018年建立了材料基因组工程数据库（MGED），集成了七个不同的功能模块（见图5）。图5 材料基因组工程数据库（MGED）的功能模块

表1 列出了新开发的材料数据库。大多数材料数据库是基于实验、科学出版物和计算机计算的数据开发的。但是，文献报道的数据通常只包含实验成功的结果，而实验中的灰色数据或失败数据一般都是刻意隐藏的。为了有效利用失败的数据，哈佛大学建立了一个名为暗反应项目的数据库，收集未发表的失败反应的信息。随着MGI的不断发展，可以预见将建立更多的在线开源材料数据库，加速先进能源材料的发展。

表1 数据库.png

3.2 特征工程

特征选择在数据驱动的材料科学中起着关键作用。原因在于，对于特定的能源材料，建模特征不仅要考虑材料的结构参数，还包括性能特征特征提取、特征分析、相关性和重要性分析以及特征选择 $X_{i,j}$ $X_{i,j}$ 的数量是不同的。但是，随着自变量数量的增加，特征选择的复杂性和计算量也会增加。在将ML应用于能源材料开发的过程中，现有的特征提取技术大多依赖于人为决策。特征分析是特征提取之后的关键步骤。主要目标是确定提取特征的重要性和相关性过滤法、嵌入法、Wrapper法和深度学习法 $X_{i,j}$ 的重要性。常用的过滤方法包括Pearson 相关（PC）和基于相关的特征选择（CFS）。嵌入方法可以同时进行特征选择和构造特征分类器，从而达到更高的效率。典型的嵌入方法包括最小绝对收缩和选择算子（LASSO）、随机森林置换精度重要性（RFPAI）和最小绝对收缩（LAS）等。另一种常用的特征分析技术是Wrapper法。Wrapper方法一般以分类误差或准确率作为特征评价标准。Wrapper方法可以分析不同特征之间的相关性。进化算法，例如遗传算法 (GA) 和粒子群优化 (PSO)，通常用于优化用于子集选择的Wrapper模型。近年来，随着人工智能的快速发展，深度学习神经网络因其广泛应用于非线性问题和复杂系统建模而在许多领域取得了巨大成功。在特征分析过程之后，可以通过可见映射获得所选特征的相关性和重要性，如图6c。然后，根据应用场景的具体要求，可用于进一步的研究（得到各种特征子集如图6d）。简而言之，特征工程是一个复杂的问题，直接影响机器学习模型的准确性。因此，有必要在数据驱动的材料科学中进行特征工程。图 6 ML 应用的特征工程：(a) 特征提取过程。(b) 典型的 ML 特征分析方法。(c) 所选特征的相关性和重要性分析。(d) 从特征工程分析中获得的各种特征子集。

4 . 机器学习算法

ML 是人工智能的一个分支，它利用算法和模型从过去的数据和现有知识中学习和推断。ML算法一般包括监督学习算法、监督学习算法和强化学习算法（见图7）。在监督学习算法中，有两种ML模型：回归模型和分类模型，例如逻辑回归和神经网络。对于无监督学习算法，主要用于聚类和降维，例如K-最近邻和主成分分析。此外，强化学习也是 ML 的重要组成部分，它可以在交互式环境中根据反馈通过反复试验进行学习。常用的强化学习算法包括Q-learning和Markov决策过程。下一节将介绍每个算法的详细教程。图 7 典型的机器学习算法

4.1 监督学习算法

监督学习算法是一种典型的机器学习方法，它通过训练标记的历史数据来构建机器学习模型（见图8）。对于每个输入变量X，总有一个对应的目标输出Y（Y可以是特定的数据值或分类标签）。换句话说，与输入变量对应的预期输出是已知的。通常，通过监督学习构建的 ML 模型包括回归模型和分类模型。得到训练好的ML模型后，可以用于未标记数据（新数据）的分类或预测。常用的监督学习算法将在后续章节中进行解释。图 8 监督学习算法的应用过程

4.2 回归

4.2.1 线性回归

线性回归是统计学和机器学习中最著名且最容易理解的算法之一。它是一种线性方法，它假定输入变量和输出变量之间存在线性关系。线性回归模型的基本公式如下[96]：

\begin{matrix} (1) & y = ϵ + ω x \end{matrix}

如果自变量的数量大于 1，则方程(1)将更改为以下格式，这称为多元线性回归：

\begin{matrix} (2) & y_{i} = β_{0} + β_{1} x_{i 1} + \dots + β_{p} x_{i p} + ε_{i} = X_{i}^{T} β + ε_{i}, i = 1, \dots, n \end{matrix}

典型的线性回归方法是普通最小二乘法。线性回归的优点包括实现简单、适用于线性可分数据集以及可以通过调节避免过拟合。而线性回归的缺点包括其对欠拟合的脆弱性以及对异常值的敏感性。在数据驱动的材料科学中，线性回归通常用于预测和筛选候选材料，以确定理想的特性。此外，对于来自材料实验的小数据集，可以应用线性回归算法来提供快速准确的预测结果。

4.2.2 逻辑回归

与线性回归输出连续值不同，逻辑回归是一种典型的分类算法，它使用逻辑 sigmoid 函数将其输出转换为标记为 0 或 1 的两个离散类。因此，可以实现高效分类。这是因为如果仅应用线性回归，并且基于线性回归模型的某些数据点的估计值可能大于 1 或小于 0，则分类将受到挑战。因此，逻辑回归可以看作是线性回归模型在分类问题上的推广。逻辑函数定义如下：

\begin{matrix} (3) & logistic (y) = \frac{1}{1 + \exp (- y)} \end{matrix}

在从线性回归到逻辑回归的步骤中，可以将 y 视为线性回归模型（方程 2）。然后逻辑函数化为：

\begin{matrix} (4) & P (y (i) = 1) = \frac{1}{1 + \exp (- (β_{0} + β_{1} x_{1}^{(i)} + \dots + β_{p} x_{p}^{(i)}))} \end{matrix}

常用的逻辑回归方法包括有序逻辑回归（OLR）、二元逻辑回归（BLR）和多元逻辑回归（MLR）。Logistic 回归模型的优点是它不仅适用于分类模型，也适用于概率模型。然而，很难捕捉复杂的关系。Logistic回归在高通量计算筛选中的典型应用是寻找高性能的能源材料。使用逻辑回归的一个明显优势是它可以从未知材料中快速识别潜在和合适的候选者，从而减少计算成本和时间。

4.2.3 高斯过程回归

高斯过程回归（GPR）是一种典型的非参数模型（即不受特定函数形式的限制），它在执行数据回归分析之前应用高斯过程通用性和可解析性的概率模型 $p(\omega)$ ，然后根据贝叶斯规则重新确定概率：

\begin{matrix} (5) & p (ω ∣ y, X) = \frac{p (y ∣ X, ω) p (ω)}{p (y ∣ X)} \end{matrix}

$p(\omega \mid y, X)$ 即可以得到后验分布。为了在未知的兴趣点 x* 处获得预测，可以通过根据计算出的后验分布对所有可能的预测值进行加权来获得数据的预测分布：

\begin{matrix} (6) & p (f^{*} ∣ x^{*}, y, X) = \int_{ω} p (f^{*} ∣ x^{*}, ω) p (ω ∣ y, X) d ω \end{matrix}

然后，可以得到训练点和测试点的联合多元高斯分布：

\begin{matrix} (7) & \begin{matrix} [\begin{matrix} y \\ f^{*} \end{matrix}] \approx N ([\begin{array}{l} μ \\ μ^{*} \end{array}], [\begin{matrix} K & K^{*} \\ K^{*} T & K^{* *} \end{matrix}]) \end{matrix} \end{matrix}

$\mu$ $K$ $K^{**} = K(X^*, X^*)$ $K^* = K (X, X^*)$ $f^* ∼ N (\mu', K')$ $\mu' = K^T K^{-1} f$ $K' = K^{**}-K^*K^{-1} K^{* T}$ $f^*$ 之后，还可以确认测试集的预测值。通常，GPR可用于预测各种能源材料的性能，尤其是对于锂离子电池、太阳能电池等结构、界面、成分复杂的材料。另外，可以根据计算出的概率筛选出预测的候选。

4.2.4 神经网络

神经网络是一种模仿生物神经网络结构和功能的数学或计算模型。通过从实例中学习，它可以完成复杂的非线性建模任务和预测。最常用的神经网络算法之一是人工神经网络（ANN）。ANN的一般算法的结构示于图9a，它包括三层，分别是输入层、隐藏层和输出层。输入层是自变量x，可以根据特征工程和特定应用的专业知识设置不同的变量和数字。隐藏层对网络的输入执行非线性变换，其中函数对输入施加权重，并通过激活函数将其定向到输出。隐藏层的内部结构根据神经网络的功能而变化。输出层由因变量 y 组成，它也是 ANN 的监督目标。人工神经网络可以学习、总结和归纳以产生一个自动识别系统。ANN 的优点包括容错、并行处理能力和强大的非线性拟合能力。与ANN的单隐藏层相比，具有多个隐藏层的深度学习神经网络（图 9 b ) 可以准确地模拟复杂的非线性系统。常用的深度学习算法包括卷积神经网络（图9 c），回归神经网络（图9 d），长短期记忆网络等。由于捕捉复杂非线性关系的强大能力，神经网络通常用于解决复杂的建模问题。神经网络算法在数据驱动材料科学中的典型应用包括材料特性的预测和有希望的候选物的筛选。特别是，深度学习神经网络不仅可以用于模拟材料结构、成分和性能之间的复杂关系，还可以揭示各种化学反应的潜在机制。因此，神经网络经常被用于研究具有复杂结构和多相反应界面的材料，例如电池材料和催化材料。此外，神经网络可以处理大量的数据样本，这将是结合ML技术和DFT计算开发新能源材料的有力工具。图 9 神经网络结构： (a) 人工神经网络。(b) 深度学习神经网络。(c) 卷积神经网络。(d) 循环神经网络。

4.3 分类

4.3.1 朴素贝叶斯

朴素贝叶斯（NB）分类方法是一种基于贝叶斯定理的监督学习算法。给定类变量的值，假设每对特征之间的条件独立性是朴素的。朴素贝叶斯分类器具有高度的可扩展性，因此它要求参数与要解决的问题中的特征具有线性关系。应用NB，可以通过评估封闭形式的表达式来实现最大似然训练，这比迭代近似聚类方法更有效。尽管他们的假设显然过于简单，但 NB 分类器在许多实际情况下都能很好地工作。对于特定的监督分类问题，当数据是离散的时，最常用的基于贝叶斯的公式：

\begin{matrix} (8) \end{matrix}

\begin{matrix} (9) & p (y ∣ x_{1}, \dots, x_{n}) = \frac{p (y) p (x_{1}, \dots, x_{n} ∣ y)}{p (x_{1}, \dots, x_{n})} \end{matrix}

基于不同特征之间的朴素假设，可以将其转化为如下所示的最终形式：

\begin{matrix} (10) & \hat{y} = \arg max_{y} P (y) \prod_{i = 1}^{n} P (x_{i} ∣ y) \end{matrix}

随着数据集变得连续，可以更改假设以调整聚类。推荐NB算法作为能源材料开发的分类工具。更重要的是，数据驱动材料科学的最新进展表明，贝叶斯算法可以应用于闭环优化以实现材料设计自动化。更多相关案例研究可以在第 5 节中找到。

4.3.2 支持向量机

支持向量机 (SVM) 是一种有监督的 ML 算法，可以将未标记的数据集分为两类（见图 10）。SVM的应用过程一般包括两个阶段：首先，可以通过训练标记数据集（即每个数据点的分类结果已知）来构建SVM模型。训练后的 SVM 模型随后成为非概率二元线性分类器。其次，经过训练的 SVM 模型可用于对未标记的数据集进行分类，将新实例映射到同一空间，并根据新实例所在区间的边预测其类别。与其他算法相比，SVM 的优点是分类速度快，在有限的样本中分类准确率更高。但是，SVM 不能直接提供概率估计。除了线性数据集分类之外，SVM 还可以用于通过基于核技巧的维度变化对非线性干扰数据集进行分类。关于在材料研究的应用，SVM 可通过分类来识别潜在的候选者。另一种基于支持向量的常用算法是支持向量回归 (SVR)，它也可用于预测材料特性。此外，SVR 可用于模拟复杂的动态反应，例如锂离子在锂电池中的迁移特性。图 10 支持向量机分类的概念图

4.3.3 决策树和随机森林

决策树（DT）是一种典型且易于理解的机器学习算法，它表示不同变量之间的映射关系，可用于预测或分类。DT 算法使用树结构和推理层来实现建模结果的最终决策。DT的应用过程一般包括DT结构的特征选择、生成和剪枝DT 结构（见图11 a)。通常由三个元素组成，即根节点（所有待分类样本）、内部节点（特征属性）和叶节点（基于决策的分类）。应用DT进行预测时，首先使用某个属性值来确定树的内部例程（基于if-then-else规则），然后根据以下规则确定要进入的分支，直到到达叶子判断结果时停止。最终可以得到DT分类的结果。DT 的主要优点包括算法结构简单、可解释性强、易于实现等。然而，DT 也有其缺点，如容易过拟合、生成的决策树结构不稳定或复杂。此外，单个 DT 模型容易受到噪声数据的影响，容易过拟合。为了解决这个问题，提出了随机森林（RF）。RF基于DT随机选择样本和特征，是典型的集成算法。如图11 b，不像DT，RF从原始数据中挑出一部分子集并在每个子集上进行训练。训练完成后，取所有模型的平均输出，然后根据主投票选出最佳模型。基于树的模型在材料信息学中的典型应用包括分类和回归，可以通过指定的树结构提供详细和直观的结果。例如，基于 Shi 等人的研究，RF 被认为是开发捕获CO2材料的理想 ML 算法。此外，数据驱动材料科学中常用的基于树的算法包括梯度提升回归树（GBRT）、梯度提升决策树（GBDT）等。图 11 基于树的模型的一般结构：（a）决策树（b）随机森林

4.4 无监督学习和强化学习

无监督学习是一种无需预先标记训练样本就可以自动对输入数据进行分类或分组的方法。无监督学习的主要应用包括聚类分析和降维。它是监督学习和强化学习策略的替代方案。K-means 聚类是一种常用的无监督算法，用于将未标记的数据聚类到不同的组中。K-means聚类算法的原理是将未标记的数据分成k个簇，然后将每个数据连接到最近的簇中心。除了聚类之外，还可以应用主成分分析（PCA）和自组织映射（SOM）等无监督学习算法来实现降维。比如PCA可以用来实现数据集降维。SOM 使用无监督学习来生成输入变量的低维离散表示。SOM 的突出特点之一是它使用竞争学习机制而不是纠错学习机制。此外，SOM中没有隐藏层。值得一提的是，强化学习是 ML 的一个小分支，它强调如何根据环境采取行动以最大化预期收益。常用的强化学习算法是 Q-learning。Q-learning基于学习过程的记录，然后将信息表达给agent，从而在特定情况下获得最大的回报。无监督学习算法在MGI中的常见应用是将候选材料分为不同的子集，以实现合理的分类。此外，无监督学习算法可以与监督学习算法相结合，以辅助能源材料的开发。综上所述，各算法的优缺点及典型应用总结如表2所示。

表2 各种机器学习算法的介绍

4.5 机器学习模型分析

获得ML模型后，还需要评估ML模型的准确性。就ML模型有效分析的一般程序而言，大部分数据样本将用于训练ML模型，而保留一小部分数据样本用于测试和验证。然后找到并记录经过训练的 ML 模型的估计预测误差。ML模型常用的评估方法是交叉验证。交叉验证主要用于建模应用程序的过程中。交叉验证的工作原理类似于上面提到的方法，先将未标记的数据集划分为不同的子集，然后选择一定数量的子集作为训练数据集，其余的子集将用于验证。常用的验证方法包括留一法验证、K 折交叉验证和holdout验证。典型的误差计算公式包括均方根误差、方差和平均绝对误差:

\begin{matrix} (11) & \begin{aligned} M A P E = \frac{1}{n} \sum_{i = 1}^{n} \frac{| y_{i} - y_{i} |}{y_{i}} \\ R M S E = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(y_{i}^{'} - y_{i})}^{2}} \\ R^{2} = \frac{{[\sum_{i = 1}^{n} (y^{i} - \bar{y}) (y_{i} - \bar{y})]}^{2}}{\sum_{i = 1}^{n} {(y^{i} - \bar{y})}^{2} ∙ \sum_{i = 1}^{n} {(y_{i} - \bar{y})}^{2}} \end{aligned} \end{matrix}

根据模型分析结果，还可以通过模型选择实现材料预测和发现。关于 ML 模型的准确性，有一点值得注意。在ML开发能源材料的实际应用中，建立的ML模型不仅要关注模型预测的准确性，还要关注模型解决实际问题的有效性。换句话说，模型精度不一定高。原因是稳定性等其他因素需要综合考虑。例如萨顿等人提供了一个案例研究来调查 ML 模型在开发材料方面的适用性。虽然建立的ML模型的准确性不令人满意，但开发的模型仍然适用，即它可以用于在固定的成分空间中筛选材料。此外，如前所述，将 ML 算法与其他技术相结合，可以进一步推动数据驱动材料科学的发展。例如，ML 建模的数据源可以从实验数据、DFT 计算和从文献中收集的资源中提取。此外，高性能材料的开发路线可以通过集成ML技术、优化算法和智能机器人实现自动化。ML在能源材料开发中的应用将在下一节介绍和讨论。

5 . 机器学习应用

最近，ML算法在先进能源材料的设计和发现中的应用成为流行趋势。本节将介绍和讨论数据驱动材料科学与工程的最新进展，包括碱性离子电池材料、光伏材料、催化材料和二氧化碳捕获材料。

5.1 碱性离子电池

碱性离子电池由于其高能量密度和环境友好的特点，在过去的几十年里得到了迅速的发展。然而，这种电池技术存在一些挑战，例如安全问题和有限的原材料。因此，开发先进的电池材料被认为是应对这些挑战的有前途的方法之一。锂离子电池的典型结构如图12所示，由正极、负极和电解质组成。负极材料一般可以由碳、石墨或硅制成，而正极材料通常由含锂金属氧化物组成。在电解质材料方面，锂离子电池中的液体和固体电解质通常分别由锂盐和锂金属氧化物组成。最近，ML 在筛选高性能锂离子电池材料方面的应用得到了广泛的研究。因此，本节对其中一些最新调查进行了简要总结。图 12 锂离子电池的典型结构

5.1.1电解质

液体电解质：为了大大提高锂离子电池的可靠性和安全性，迫切需要开发新的电解质体系。最近，应用ML方法寻找新的电解质材料受到了研究人员的关注。例如，为了测量新电解质材料的无序特性，Sodeyama 等人在三种不同的线性回归算法的基础上提出了一个多 ML 应用框架。结果表明，线性回归的详尽搜索可以提供对电解液性质的最准确估计。此外，还可以分析描述符的权重图，识别计算成本和预测精度之间的复杂相关性，从而提高大量新材料的搜索效率。在实际应用中，电解质与电极之间各种离子的传递过程是复杂的。离子和溶剂的配位能可以很好地表示电解质和电极界面处离子的转移。因此，对配位能的研究可以为先进电解质材料的发展提供有效的指导。Ishikawa等后来应用量子化学计算来研究五种碱金属离子（Li、Na、K、Rb 和 Cs）与电解质溶剂的配位能。验证结果表明，线性回归算法提供的配位能预测精度最高，为 0.127 eV。除了电解液的材质外，电解液添加剂对锂离子电池的性能也有显着影响。例如，Yasuharu 等人结合 ab initio 计算和 ML 方法（高斯核岭回归和梯度提升回归）对 149 种锂离子电池电解质添加剂的氧化还原电位进行建模和分析。结果表明，描述符准确地预测了氧化还原电位。此外，氧化还原电位的基本特征可以通过特征工程分析得出的少量特征来描述。为了进一步加快锂离子电池水性电解质的科学创新，Dave 等人开发了一个将ML技术与智能机器人相结合的集成平台，该平台可以独立进行数百次连续实验以优化电池电解液（见图13）。提供了一个由 251 种水性电解质组成的数据库，并确定了混合阴离子钠电解质的有希望的候选者。图 13 用于探索液体电解质的自动化机器学习和机器人集成平台

固体电解质：由于其固有的安全性和高能量密度，使用固体电解质的锂离子电池被认为是未来的发展方向。然而，仍然存在一些关键挑战，例如电池界面的低导电性和稳定性差等问题仍未解决，从而阻碍了固态锂离子电池的发展。电池技术的最新进展表明，tsavorite结构可以为电池阴极应用保持快速的锂离子插入速率。遵循这一动机，Jalem 等人因此探索了 LiMTO4F tsavorite系统来用于固体电解质。研究目标是识别具有极低锂迁移能的潜在组分，并探索结构参数对迁移能的影响。因此，通过整合ML技术（神经网络）和DFT计算，构建了基于晶体结构的迁移能预测模型。该研究确定了影响迁移能量的关键因素，例如聚阴离子的共价效应和局部晶格之间的竞争。通过使用逻辑回归，Sendek 等人提出了一种新的筛选方法来识别固态电解质的高性能候选材料。这项研究从 12,831 个潜在候选者中确定了 21 个有希望的结构。为了阐明成分-结构-离子电导率关系，Kireeva 等人应用SVR方法分析石榴石结构氧化物的锂离子迁移特性。模型的预测能力达到了合理水平。为了筛选用于固态锂离子导体的先进材料，Zhang 等人使用无监督 ML 方法对各种含锂材料的候选列表进行优先排序，并发现了 16 种新的快速锂导体（参见图 14a和 b）。同样，通过使用推荐系统与随机森林分类算法相结合，Suzuki 等人发现了两种以前从未报道过的固态电解质电池锂离子导体。此外，新发现的Li6Ge2P4O17的合成时间比传统导体少10倍。为了研究使用不可燃锂导电陶瓷作为固体电解质的应用潜力，Nakayama 等人提出了两种数据驱动的材料筛选方法。对数据进行贝叶斯优化处理，大大提高了搜索效率。使用相同的 ML 算法，Wang 等人开发了一种自动模拟优化框架来设计新的固体聚合物电解质。如图14c，固体聚合物电解质的设计过程从离散的常规设计的空间，然后通过模拟和迭代转移到连续的粗粒化的设计空间。然后应用贝叶斯优化来优化材料设计输出。通过这种方式，确定了锂的电导率和分子的内在材料特性之间的复杂相互作用。总之，ML技术的应用有助于发现锂离子电池的高性能材料。图 14 固态电池的数据驱动材料科学：（a）现有固态锂离子导体的典型晶体结构 (b) 预测和已知固态锂离子导体之间离子传导特性的比较 (c) 粗粒度分子动力学-贝叶斯优化框架

5.1.2 电极

几十年来，锂离子电池电极材料的不断发展，为锂离子电池的成功商业化奠定了坚实的基础。为加快电池电极材料的发展，应用ML探索新型电极材料成为新的研究热点。例如，Shandiz 等人应用8种不同的聚类算法来研究晶体结构对电池电极性能的影响。研究了三种典型的晶体系统，结果表明应用RF模型可以获得最高的预测精度。此外，分类模型的参数敏感性分析结果证实，位点的数目和晶体体积对确定晶系类型有显着影响。为了研究影响电池正极体积的最重要参数，Wang 等人报道了一种结合 ab initio 计算和偏最小二乘 (PLS) 分析的方法。特征分析结果证实X八面体和X4+离子半径是决定因素。为了加快分子电极新材料的开发进程，Allam 等人提出了一种用于开发高通量筛选的 DFT-ML 框架。电子特性和结构信息被选定为预测氧化还原电势的独立变量（图15a）。通过应用线性相关分析，大量输入变量被缩减为六个核心输入变量（见图15 b）。此外，结果表明影响氧化还原电位的最关键因素是电子亲和力。为了探索锂离子电池电极微结构设计的机理，Takagishi 等人提出了一个使用三维虚拟结构和ML的综合框架（参见图15c）。结果表明，人工神经网络模型预测的电极比电阻与模拟值吻合较好。为了促进电池材料的发现，Joshi 等人通过集成 ML 技术开发了一种网络可访问工具来预测金属离子电池中电极材料的电压。结果表明，开发的在线工具可以在一分钟内估计多种金属离子的任何体电极材料的电压。此外，在线平台可以在http://se.cmich.edu/batteries上免费访问。为了研究复合电极的微观结构对单体电池充放电性能的影响，Jiang等人提出了一个结合实验探索、卷积神经网络和数学建模的综合框架（图 15 d）。结果表明，电导率与颗粒脱离程度呈正相关。此外，这项研究证实，平衡锂离子动力学和电子扩散对提高电池性能有显着影响。

图 15 用于开发电池电极材料的 ML 技术：（a）具有 10 个输入变量和两个隐藏层的 ANN 模型框架。(b) 由特征工程确定的六个核心输入变量。 (c) 锂离子电池多孔电极的预测和优化框架。(d) 基于 ML 技术的分割工作流程。

在推动先进电池技术的应用方面，除了开发新型电池材料外，制造和应用等其他方面也值得研究。考虑到这一点，Turetskyy 等人应用数据驱动技术建立数字化、智能化的电池制造系统，并提供了成功的案例研究。为了研究材料和电池设计对锂硫 (Li-S) 电池性能的影响，Kilic 等人开发了一种新的ML方法，将关联规则挖掘方法和Apriori算法结合起来。基于从文献中提取的数据资源，发现封装材料的类型和数量对提高电池容量和延长循环寿命起着至关重要的作用。此外，最新的技术进展表明，ML 可用于预测电池健康状态以及可持续生命周期。综上所述，上述案例研究和分析证实，电池技术最有前景的前景之一是应用ML和大数据等数据驱动技术来加速下一代电池技术的发展。

5.2 光伏材料

探索具有高转换效率的太阳能电池材料是太阳能大规模应用的先决条件。探索应用 ML 算法发现高性能太阳能新材料已逐渐成为未来趋势。ML技术在太阳能电池中的典型应用包括性能和转换效率的预测，以及高性能光伏新材料的筛选。

5.2.1 属性预测和筛选

高性能光伏材料的筛选和结构与性能关系的准确预测是未来太阳能电池研究和应用的重要追求。为了预测钙钛矿结构的稳定性，Sun 等人用了一种结合一维容差因子的数据筛选方法。验证结果表明，所提出的 ML 框架可以准确识别 576 种 ABX3材料数据集中 92% 的化合物。基于 ABX 3钙钛矿的已知晶体结构信息，Pilania 等人利用 SVM 算法建立了预测新钙钛矿卤化物的分类模型。结果表明，发现了几种具有钙钛矿晶体结构的新 ABX3组合物。为了找到用于太阳能电池的无铅钙钛矿材料，Im 等人应用 GBRT 方法预测候选卤化物双钙钛矿的形成能和带隙。为了发现先进二维太阳能电池材料，Jin等提出了一个数据驱动筛选框架（图16a）。该搜索如图16 b所示，它集成了 ML 模型和 DFT 验证，以从大量实验证实的晶体结构中识别潜在的候选者。最终确定了26种二维光伏材料。为了寻找稳定和亚稳态的钙钛矿材料，Liu 等人根据 GBDT 开发了一个分类模型。从891 种ABO3中筛选出331种候选材料，被预测为具有钙钛矿结构。（图16c）

图 16 ML技术在光伏材料性能预测和筛选中的应用：（a）二维（2D）光伏材料。(b) 基于 ML 模型的二维光伏材料筛选程序。(c) 331 个 ABO3钙钛矿的预测结果。(d) ML 算法结合 DFT 计算筛选太阳能电池材料。

5.2.2 太阳能转换效率

为了加速发现用于光伏的混合有机-无机钙钛矿的过程，Lu 等人应用6种ML算法与DFT计算来筛选太阳电池材料（见图16 d）。验证结果表明梯度提升回归算法提供了最高的准确度。此外，首次发现了六种正交无铅杂化有机-无机钙钛矿。同样，施密特等人构建了一个包含大约 250,000 立方钙钛矿系统的 DFT 计算的数据集。此后应用四种 ML 算法来预测固体的热力学稳定性。他们的结果表明，极端随机树给出了最高的准确度。还表明，ML 计算比高通量 DFT 计算快至少 5 倍。Takahashi等人使用随机森林算法来预测 9328 种钙钛矿材料的带隙。发现了 11 种具有适当带隙和形成能范围的新型钙钛矿材料。为了找出预测双钙钛矿电子带隙的最关键特征，Pilania 等人采用基于核岭回归的ML模型。结果表明，最低的 Kohn-Sham 能级和构成原子种类的元素的电负性是最重要的预测因子。Min等人开发了一种基于 ML 和主动学习的无机 ABO 3钙钛矿材料筛选平台。他们的结果也表明，ML算法的应用可以极大地促进新材料的发展。

5.2.3 有机光伏

有机太阳能电池是解决未来几十年清洁能源危机的有前途的技术之一。然而，通过实验室探索寻找具有理想性能的合适候选者是一个耗时的过程。AI的最新进展表明，ML技术的应用具有加速有机光伏材料发展的潜力。Paul等人通过预测最高占据分子轨道 (HOMO) 值，应用深度神经网络来筛选有机太阳能电池。这项研究证实，通过使用从大的数据集到精心规划的小数据集的迁移学习，可以更快地搜索高性能有机太阳能电池。为了解决有机光伏材料高通量分子设计的挑战，Nagasawa 等人报道了一种用于聚合物-富勒烯有机光伏应用的共轭分子的监督学习筛选模型。结果表明，RF 模型表达了最高的预测精度，这有助于分子设计的决策。

Padula等人通过应用线性和非线性 ML 模型，研究了太阳能电池的电子和结构特性对其性能的影响。结果表明，结合 DFT 计算和太阳能电池的电子和结构特征，ML 模型可以实现更高的预测精度。Sahu等人对有机光伏电池的 10,170 个候选分子进行了数据驱动的虚拟筛选。应用GBRT和ANN模型，筛选出126个有前途的候选者。这项研究表明，机器学习辅助的虚拟筛选研究有可能揭示隐藏的指导方针，可用于发现和设计有前途的分子。除了发现新材料，实际应用的关键步骤是合成 ML 筛选和预测的材料，以确认 ML 模型的有效性。Sun等人使用监督学习方法研究化学结构对光伏材料性能的影响。结果表明，所开发的机器学习模型能够正确地描述结构-性能关系。此外，验证实验是基于10种新合成的给体材料进行（图17a）以确认ML模型的可靠性。结果如图17 b，这表明实验结果与模型预测结果相一致。遵循同样的动机，Wu 等人提出了一种将 ML 技术和实验验证相结合的集成工作流程。如图17 c, 五种机器学习算法被用来处理数据。根据预测结果，将进行人工实验评估来合成预测材料并验证所开发ML模型的可靠性。在这个案例研究中，选择并合成了六个光伏供体/受体对。验证结果证实，实验能量转换效率与预测值处于同一水平。除了上述研究重点之外，为太阳能电池开发新的数据基础设施也很有意义。例如，Marchenko等人开发了钙钛矿材料的开源数据库，包括晶体结构、带隙和原子部分电荷的 ML 预测信息。综上所述，ML的应用可以加速光伏材料的设计和发现，进一步拓展可再生能源的巨大应用潜力。图 17 用于高性能有机光伏材料的 ML 辅助材料设计：（a）10 种基于 ML 筛选的新开发的分子供体材料。(b) 发现的有机光伏材料的预测结果与实验数据。(c) ML 技术在先进有机太阳能电池开发中的工作流程。

5.3 催化反应

催化材料在先进能源技术的应用中发挥着关键作用。从过去到未来，新型催化材料的筛选一直是工业界和学术界追求的目标。传统的通过试错的催化材料开发方法已经不能满足当前工业快速发展的需要。数据科学领域的最新革命使人们更加期待ML技术的应用可以加速高效催化剂材料的发展。Cui等人探讨了应用 ML 预测气相反应活化能的可行性。使用分子结构和热力学特性及其差异作为输入特征，测试了基于 ANN、SVR 和树提升方法的六种不同 ML 模型。验证结果表明，提升树方法显示出最好的预测性能。Toyao 等开发了一个 ML 模型来预测 CH 4在铜基合金基底上的吸附能。基于 DFT 计算结果建立的数据库，选择 12 个特征，借助 4 种监督学习算法构建 ML 模型。结果表明，extra树回归算法的预测精度最高。基于模型，吸附能可以通过模型预测，无需耗时的DFT计算。Ma等人提出了一种基于ANN的增强化学吸附模型，可以快速准确地预测金属合金在广泛的化学空间中的表面反应性。ANN 模型由一组从理想双金属表面的理论计算中获得的数据进行训练。应用经过训练的 ML 模型来捕获多金属表面上吸附物的非线性相互作用。该方法有望促进高通量催化剂的筛选。为了确定催化剂表面的活性位点，Chen 等人开发了一个全面的 ML 模型。该模型耦合了三个模块：ANN、多尺度模拟和量子力学。以CO2的还原为例，对Au纳米颗粒和脱合金的Au表面的5,000-10,000表面属性（图18a）进行研究。此外，催化剂的整个表面的活性通过上述映射方法（图18 b）表明，ML 方法可以帮助指导高性能 CO2还原催化剂的设计。Meyer等人开发了一个 ML 模型来预测过渡金属配合物和基底之间的氧化加成反应的能量。它可以通过将模型与分子火山图相结合来估计均相催化剂的活性。共预测了 18,062 种化合物，选择了 557 种落入理想热力学窗口的候选催化剂。McCullough等人总结了将人工智能算法与催化剂发现中的高通量实验相结合的最新进展。结果表明，人工智能模型可以预测和发现现有实验数据库中不存在的新催化剂。此外，通过考虑更复杂的参数，如吸收能和带隙，可以提高 ML 模型的预测精度。与传统的催化反应相比，新兴的电催化反应逐渐受到关注，特别是在绿色能源转换方面，如电解水制氢和电催化还原二氧化碳为碳中性燃料, 电催化氮还原为氨等。旨在发现有效的二氧化碳还原电催化剂，Chen等人开发了一个 ML 模型，通过使用极端梯度增强回归（XGBR）算法来分析大量计算数据源。这项研究提供了利用吉布斯自由能的预测值来探索高性能催化剂的快速检索方法（图18 c）。为了筛选析氢反应 (HER) 的理想催化剂，Sun 等人应用四种 ML 算法结合 DFT 计算来预测氢吸附的吉布斯自由能 (ΔG(H*)）。结果表明，用简单的特征的SVR模型具有更高的预测精度（图18 d）。另外，通过ML筛选出28种候选材料和并确定其中5个为HER催化剂（参见图18 e）。

除了上述工作外，材料研究人员还探索了应用ML开发催化剂材料的其他方面。例如，Fischer 等人讨论了随机森林回归（RFR）在二维催化材料开发中的应用。结果表明，RFR模型对小分子结合能具有较高的预测精度。尽管本节中的大多数案例研究都使用计算数据来构建 ML 模型，但 Smith 等人基于从文献中提取的实验数据创建了 ML 模型。所提出的框架可以有效地指导实验和描述符选择。为了进一步降低应用ML技术开发新催化剂材料的门槛，Palkovits提供了ML在催化中应用的基础教程和代码。直接提供各种ML算法的编程代码，方便其他材料科学家使用。此外，Toyao 等人总结了催化材料数据驱动科学的最新进展，包括材料设计、合成、表征和应用等。提出了未来催化研究与ML技术相结合的闭环路线图（图19），包含催化材料自动化合成分析平台、数据资源和人类直觉、理论计算、ML预测等不同模块。综上所述，ML技术的应用可以加速高性能催化材料的开发。

图 19 ML辅助未来催化研究示意图

5.4 CO2捕集技术

金属有机骨架（MOF）因其结构稳固，可实现选择性CO2物理吸附而受到广泛关注。然而，考虑到迄今为止在数千个 MOF 中可以同时改变的许多属性，确定提高 CO2捕获能力的最关键功能变得非常具有挑战性。基于ML的高通量筛选方法为MOF性能提升带来了希望。Anderson等人使用多尺度 DFT、grand canonical Monte Carlo (GCMC) 和 ML 方法来研究不同孔隙化学和拓扑特征在增强 MOF 的CO2 捕获能力指标的作用。结果表明，“人类直觉”提出的用于训练ML算法的简单描述符可以成为预测CO2捕获指标的有效模拟工具。在数以千计已报道的 MOF 结构中寻找导电 MOF是一项艰巨的任务。He等人使用一种新策略，结合 ML 技术、statistical multiple selection和ab initio来筛选 2,932 个 MOF。确定了六种具有良好性能的 MOF 晶体结构。为了准确确定具有增强 CO2吸附能力的候选 MOF ，Fernandez 等人开发了一个定量的结构-性能关系分类器。研究结果表明，ML分类器可以将计算时间减少一个数量级。为了确定二氧化碳捕集能力的关键因素，Zhu等人建立了基于RF算法的定量结构-属性关系模型。结果表明，有CO2的吸附容量和压强之间有强相关的关系（图20a）。此外，三个关键参数的相对重要性示于图20b，这为关键参数的选择提供了直接线索。为了总结应用 ML 技术开发用于 CO2吸附的新型材料的最新技术水平，Chong等人系统回顾了 ML 技术在 MOF 中的应用，强调了数据驱动材料科学与工程在二氧化碳吸附材料开发中的未来前景。图 20 利用ML技术探索CO2吸附能力的关键因素：(a)特征相关性分析结果。(b) 各种压力范围下综合影响因素的相对重要性。

6. 未来展望

6.1 特定能源材料的前景

6.1.1 碱性离子电池材料

在先进电池材料的发展方面，一些挑战阻碍了数据驱动电池材料的不断创新和研究。首先，当应用ML算法研究电极和电解质材料对电池性能的综合影响时，针对电池材料建立的ML模型通常比较复杂。原因包括电池结构和成分之间的复杂关系，以及在电极-电解质界面发生的各种化学反应。其次，用于建模和分析的电池数据资源缺乏系统的收集和标准化。此外，电池行业实际应用产生的数据资源也值得收集。为了应对上述这些关键挑战，未来的研究可以从以下几个方面进行。一方面，ML模型的参数可以根据特征工程的结果进行优化，这表明了每个参数的重要性。同时，可以进一步优化参数选择，通过集成优化算法，如进化算法和贝叶斯算法来简化模型。另一方面，也建议将电池技术的领域专家知识与ML建模过程相结合，从而将模型可靠性保持在一定水平以上。此外，结合各种资源，包括DFT计算、ML技术和实验探索，可以加速电池材料的发展。

6.1.2 光伏材料

关于光伏材料，需要解决几个关键挑战。首先，搜索可以进行准确预测且易于访问的下一代特征值得进一步研究。其次，建议将领域专家知识与特征工程和建模过程相结合，以提高开发的 ML 模型的有效性。同时，应进行验证实验以确认ML模型的分析结果，例如具有高性能的预测候选者。目前，只有少数研究通过实验验证了他们预测的材料。模型验证应被视为未来的必要步骤。数据驱动的太阳能材料科学领域存在的另一个主要问题是数据稀缺。相信通过最新开发的人工智能技术，例如文本挖掘和图像识别，可以缓解小数据集的问题。此外，通过结合从 DFT 计算和实验中提取的数据，可以丰富光伏材料的数据源。从算法选择来看，ANN和GA被认为是太阳能电池最常用的两种ML算法。除了性能预测和先进材料筛选外，ML技术还可用于优化太阳能电池的器件结构和制造工艺，推动光伏材料的产业化进程。此外，虽然数据驱动光伏材料科学与工程相关的研究论文数量众多，但该领域相关的综合综述论文有限。因此，应该发表更多系统的综述论文，指出未来的方向，为先进光伏材料的发展铺平道路。

6.1.3 催化材料

ML技术在新型催化材料开发中的应用仍处于探索的早期阶段，主要受经验驱动。可能的原因是催化过程通常涉及多维、多尺度的化学反应，是一个复杂的动态过程。此外，文献报道的催化反应的实验条件通常过于宽泛，一些具体的实验细节被刻意隐藏。此外，实验过程中报告数据，尤其是灰色数据的方法和格式也不尽相同。上述行为造成了数据库建立和参数选择的困难，进而阻碍了先进催化材料的快速发展。促进催化信息学的发展，未来的研究可能会考虑以下观点。首先，催化材料科学家应该注意将 ML 技术与现有的催化反应物理和化学模型相结合，这有可能提高 ML 模型的整体性能。其次，通过集成智能机器人等自动化技术，以及贝叶斯算法、遗传算法等优化算法，可以加速对未知催化材料和反应机理的探索。第三，用于机器学习建模的数据应从各种来源收集，例如在线开源数据库、计算数据集和实验室实验数据。

6.1.4 CO2捕集材料

将数据驱动的科学应用于开发 CO2捕获材料的挑战和前景可以从以下前景中得到强调。首先，针对不同 CO2捕获材料系统的 ML 算法的开发和适用值得进一步研究。值得注意的是，RF算法已广泛应用于新型CO2捕集材料的设计和发现中，显示出巨大的实际应用潜力。此外，还可以使用具有优化功能的算法来筛选CO2捕获材料，例如GA和GBRT。其次，未来的研究应侧重于提供设计规则以指导新型 CO2捕获材料的开发，例如基于特征工程的逆向设计。第三，开发基于智能机器人技术、DFT计算和实验研究的CO2捕集材料开发自动化集成系统。因此，可以合成预测的材料以进一步优化 ML 模型。

除了上述每种能源材料的具体挑战和未来前景之外，以下部分还将讨论适用于所有这些材料以促进数据驱动能源材料科学与工程发展的一般观点。

6.2 数据驱动能源材料科学的前景

6.2.1 数据基础设施的改进和标准化

ML 算法基本上是从以前的数据源中提取知识，这些数据源通常来自计算或实验结果。在这种情况下，大量的训练数据可以帮助 ML 模型达到更高的准确率。然而，数据驱动材料科学应用过程中的一个关键问题是数据稀缺，特别是对于来自实验研究的数据源。原因是材料科学家以不同的格式报告他们的数据，从而对数据的统一收集提出了挑战。此外，故意隐藏实验中的灰色数据或失败数据。为了解决数据稀疏性问题，未来可以进一步探索一些有前景的方向。

首先，材料界报告或发布的传统数据格式应该改变，以促进从出版物或文献中直接和轻松地收集数据。如图21所示，研究人员和科学家可以将实验或计算生成的数据上传到在线开放数据库网站。然后，在线数据库将标记数据提供者的信息，并根据系统的智能推荐将数据分类为特定子集。数据提供者也可以手动选择子集。之后，在线系统会将上传的数据转换为通用的机器可读格式。同时，也会为数据提供者生成专属链接。因此，数据用户可以从在线数据库中访问和下载具有特定格式和引用的数据。此外，为了加快先进能源材料的发展，数据提供者也可以在其出版物中添加这样的链接作为支持信息之一。第二，可以引入已成功应用于文本和图像识别的自然语言处理技术，帮助材料科学家从现有文献中挖掘大规模数据。例如，使用自然语言处理技术，Kim 等人开发了一种实体识别模型，将科学文献与无机合成观点联系起来。第三，材料工程师应该考虑在未来几十年内探索数据融合，即整合多个数据源以生成比单一数据源更一致和准确的信息。例如，Ward等人通过将 NIST 数据添加到原始训练数据中，将 ML 模型的准确率提高了 30%。因此，应该在很大程度上接受这种技术的更多应用。第四，材料界的研究人员也应该更加关注通常被忽视的失败实验的结果。哈佛大学的科学家利用失败的实验启动了一个机器学习辅助材料发现的项目。结果表明，灰色数据的应用可以为材料开发铺平道路。但是，该主题中有意义的尝试仍然有限。因此，应在相关领域进行更深入的研究。此外，还需要开发更多的在线开放数据库（如 The Materials Projects 和 NIST）、工具和软件（如 Jupyter Notebook 和 GitHub）来推动数据驱动材料科学的发展。图 21 数据驱动材料科学与工程中的未来数据基础设施

6.2.2 自动闭环优化框架和模型可视化

尽管 ML 技术已被广泛证明是数据驱动材料科学中的有用工具，但毫无疑问，仍有一些挑战需要解决。例如，在ML建模过程中，描述符的选择和参数的设置很大程度上依赖于人工决策。同时，每个参数的值不能根据上一轮的结果自动更新，从而导致时间成本增加。此外，由某些算法（如神经网络）构建的 ML 模型难以解释，因为这些模型通常不可见。因此重点介绍了成功应用机器学习的关键点和观点如下：

首先，应开发机器学习算法的闭环优化框架，以加速材料发现的过程。如图22，这种方法的主要目标是开发一个闭环迭代过程，可以制定关于具有给定结构和特性的制造材料的假设。因此，自动框架将能够计划和执行实验，以及解释结果。通过结合贝叶斯主动学习，可以将上一轮提取的知识应用于设计下一轮的实验探索和模拟。这种方法有自己的缺点，比如自主优化，即优化过程得到的最优候选可能是局部最优解（理想解应该是全局最优解）。在这种情况下，其他有前途的候选材料将在不知不觉中被排除在外。在此处，我们建议闭环优化框架应与支持全局优化的算法（例如进化算法）结合使用，以避免陷入局部最优解的陷阱。除了上面提到的自动框架，深度学习神经网络在材料科学中的应用也是值得推荐的。原因是深度学习具有很强的非线性拟合能力，可以模拟各种特征之间的复杂关系，揭示材料合成机制。第三，机器学习模型需要更加可见。虽然机器学习的应用可以促进材料特性的预测和筛选潜在的候选对象，但机器学习模型的可解释性仍然值得进一步探索。一旦可以清楚地解释 ML 模型，参数和材料特性之间的关系就容易辨别出来，进而促进能源材料领域的发展。图 22 闭环自主材料探索和优化。

6.2.3 智能机器人自动驾驶实验室与预测材料合成

实验产生的数据对数据驱动的材料科学有重大影响。然而，由于成功率低、耗时长，数据稀缺是主要由实验数据组成的数据库中的普遍问题。因此，应该采取更多的努力来产生大量的数据样本。随着智能机器人和3D打印技术的快速发展，机器人自动驱动实验室的概念正在逐渐落地。最近，利物浦大学的Andrew Cooper团队开发了一种智能机器人，在 8 天内自主运行中，进行了 688 次实验并识别活性提高六倍的光催化剂混合物。可以预见，这样的人工智能化学家将成为材料科学家的得力助手。阻碍材料基因组学发展的另一个主要挑战是用于 ML 预测的材料的制造。可能的原因是预测材料的结构或成分难以合成。此外，目前还没有关于哪些化合物可以合成以及如何合成的预测理论。因此，合成ML预测材料的理论研究将是一个很有前途的方向。

6.2.4 跨学科交流和支持政策

由于所有科学家都有自己的专业知识和术语，因此在不同学科之间开发一种通用语言在计算材料科学中起着关键作用。在此基础上，计算机科学家、化学家、物理学家和材料工程师之间的合作和共同努力可以促进和加速新材料的发展。一个可行的建议是大学组织研讨会和暑期学校，并开发弥合这些领域的课程，例如由意大利纳米科学和纳米技术主办的国际暑期学校——深度材料：数据驱动材料研究的观点。更重要的是，政府、研究机构、大学可以进一步加快数据驱动材料科学与工程的发展。例如，为了到 2050 年实现欧洲的碳中和，提出了 BATTERY 2030+ 路线图来发明未来的电池。我们希望有更多的项目来加速数据驱动材料科学的科学发现。

7 . 结束语

数据驱动材料科学与工程的最新进展表明，ML技术的应用可以极大地促进先进能源材料的发现、设计、开发和部署。在本文中，我们首先展示了实现碳中和的路线图，以说明开发新型能源材料的重要性和必要性。其次，全面回顾了基础 ML 教程，包括开源材料数据库、特征工程、典型 ML 算法的详细介绍以及 ML 模型的有效性分析。随后，数据驱动材料科学与工程的最新进展包括碱性离子电池材料、光伏材料、催化材料和CO2捕获材料进行了介绍和讨论。包括性能预测、潜在候选物的筛选以及能源材料特性的闭环优化。此外，还强调了ML 成功应用的关键和剩余挑战，例如数据基础设施的改进和标准化、ML 技术（自动闭环优化和模型可视化）、实验探索（机器人自动驾驶实验室）、跨学科通信和扶持政策。我们进一步强调了自动闭环优化技术的未来潜力以及人工智能机器人的应用。我们相信，本文总结的 ML 在材料界应用的最新技术将为开发高性能能源材料铺平道路。