https://www.nature.com/articles/d41586-017-07820-6
世界需要更多的能源。政府和公司正在投资数十亿美元的技术来收集、转换和储存电力。随着硅太阳能电池接近其性能极限,研究人员正在寻找基于钙钛矿和量子点
的替代品。储存能量的电池必须变得更便宜、更高效和更耐用。并且设备需要由安全且丰富的材料制造,例如铜、镍和碳
,而不是铅、铂或金。材料的生命周期分析需要显示改善的碳足迹
,以及匹配全球能源挑战规模的能力。
大量关于此类材料特性的实验数据正在产生。例如,美国国家标准与技术研究所拥有 65 个数据库,其中一些具有多达 67,500 个测量值。此外,自 2010 年以来,仅电池和太阳能电池就已发表了超过 170 万篇科学论文。
需要加速将材料的结构与其功能相关联
。搜索空间很大。许多材料仍然是凭经验找到的:一次制作和测试几个样品。搜索受人为偏见的影响。研究人员经常关注他们认为有趣的元素的几种组合。
正在开发自动生成结构并评估其电子特征和其他属性的计算方法。例如,材料项目正在使用超级计算机来预测所有已知材料的特性。它目前列出了超过 700,000 种材料的预测特性。但将这些数据转化为工业和商业应用的巨大潜力距离实现还有很长的路要走。
机器学习——经过训练以在数据集中寻找模式的算法——可以大大加快能源材料的发现。它已被用于预测量子模拟的结果,以识别用于液流电池、有机发光二极管、有机光伏电池和二氧化碳转化催化剂的潜在分子和材料
。与运行模拟所需的数百小时相比,这些算法可以在几分钟内预测结果。
然而,挑战依然存在。编码材料没有通用的表示
。不同的应用需要不同的特性
,例如元素组成、晶体结构和导电性。关于材料的精心策划的实验数据很少见,假设的计算测试依赖于在实验条件下可能远非现实的假设和模型。
机器学习和能源科学社区应该更多地合作。他们必须了解彼此的能力和需求。我们提供以下建议,这些建议来自加拿大高级研究所于 5 月在波士顿马萨诸塞州举办的研讨会。
材料科学家应该将他们的数据组织成标准化的、机器可读的形式,例如电子表格应用程序中常用的CSV文件。目前,结果往往被压缩成图形和表格
,每个组的数据组织方式不同,测试条件和实验设置也各不相同。许多团队处理他们的原始数据如标准化
,并且在缺乏校准结果的实验证据的情况下,模型通常会出现错误和偏差。
政府资助机构和出版商应要求将数据上传到可公开访问的数据库,例如材料项目、材料数据管理系统或 Citrination 平台。联盟和大学可以分担维护这些数据库的成本;引用它们时可以给予credit。或者,可以建立一个独立的实体来维护实验数据库,这与蛋白质数据库中目前共享的蛋白质晶体结构大致相同。包含负面结果很重要——机器学习算法需要能够区分满足性能目标和不满足性能目标的材料。
还需要在材料科学界鼓励一种共享文化。计算机科学和医学界正通过将其大型数据集用于机器学习而获得巨大收益。例如,位于马萨诸塞州剑桥的 IBM Watson Health 正在使用机器学习来改进药物发现和癌症治疗。
“大挑战”奖是促进创新的一种具有成本效益的方式。例如,XPRIZE 计划在碳捕获和利用、海洋发现和人工智能方面取得了突破。2004 年用于亚轨道飞行的 Ansari XPRIZE 产生了 SpaceShipOne,这是第一艘进入外层空间的私人宇宙飞船。Kaggle 平台使用竞赛来众包计算机建模和数据科学问题的解决方案,例如预测类药物分子的活动。由加利福尼亚州旧金山的 AngelHack 等公司赞助的黑客马拉松已经为万事达卡等公司开发了应用程序。
我们建议建立机器学习竞赛
,以鼓励在公开可用的数据集中发现新能源材料,例如材料基因组计划、欧洲新材料发现实验室 (NOMAD) 计划或柠檬酸。目标是预测特定应用或属性的材料。例如,纳米级孔隙率是碳捕获材料的关键,电子带之间的间隙是太阳能电池的重要描述符,硬度可用于开发用于运输的轻质复合材料。机器学习可以同时考虑多个属性。
比赛可以由大学部门或商业支持的机构赞助,如加拿大多伦多人工智能矢量研究所和蒙特利尔学习算法研究所,或美国丰田研究所。他们甚至可以采用类似于在线蛋白质折叠游戏 Foldit 的形式,人们参与其中既是为了发现的荣耀,也是为了击败其他人的分数。知识产权可以按照与 XPRIZE 类似的方式进行管理。
化学家、计算机科学家、机器学习专家、材料工程师、程序员和物理学家都有自己的专业领域和术语。例如,材料工程师擅长制造各种成分的材料,机器学习研究人员需要了解这些微妙之处才能预测实际使用的材料。
我们建议大学举办研讨会和暑期学校,并开发连接这些领域的课程。一些暑期学校已经为计算机科学应用教授传统的计算化学和机器学习;很少有两者兼有。应该建立更多的培训论坛,例如由加利福尼亚州洛杉矶的纯粹与应用数学研究所运营的具有机器学习的理解多粒子系统计划。
作为一个快速发展的研究领域,能源材料发现是先进机器学习技术的完美试验台。机器学习倾向于假设一个固定的训练集;例如,自动驾驶汽车的机器人被训练使用道路图像或视频进行驾驶。但这可能很慢,而且结果很难重复或因用户而异。相比之下,能源材料的数据格局随着新信息和模型的出现而不断变化。这里有用的是不断发展的深度强化学习领域
,在这个领域中,agents探索他们不断发展的环境以找到最佳解决方案。将此类算法应用于材料发现将使搜索逐渐变得更有效率,并允许学习者像化学家一样探索分子空间。
开发机器学习方法是 Mission Innovation 全球合作发起的清洁能源材料创新挑战的主要目标之一。合作由政府自愿承诺提供资金——各国必须通过必要的投资来兑现其承诺。
总而言之,全世界都需要对人工智能和机器人驱动的材料研究进行更多投资。必须向机器人编程人员提供更多数据。实验家、机器人专家和算法设计师应该更多地沟通和协作,以促进快速故障排除。
寻找世界所需的新能源技术的时间已经不多了。