“在我看来,《自然》杂志根本就不应该发表谷歌的这篇论文,因为它违反了FAIR(Findable可发现、Accessible可访问、Interoperable可互操作、Reusable可重用)的数据原则。……谷歌决定不共享用于生成模型的数据,甚至不共享模型结果本身。唯一共享的数据是模型最终识别出的稳定晶体,这让人难以复现模型。……我认为,像谷歌这样的公司参与科学进程固然重要,但也必须遵守同样的严谨标准。无论从哪个标准来看,一项无法被验证的工作都不能被视为科学。”
2023年11月底,Google旗下的DeepMind在Nature杂志发表了重磅论文,宣称他们开发了用于材料科学的人工智能强化学习模型Graph Networks for Materials Exploration (GNoME),并通过该模型和高通量第一性原理计算,寻找到了38万余个热力学稳定的晶体材料,相当于“为人类增加了800年的智力积累”,极大加快了发现新材料的研究速度(图1)。[1]
2023年12月,距离Google的GNoME模型发表数天后,微软发布了材料科学领域的人工智能生成模型MatterGen,可根据所需要的材料性质按需预测新材料结构。微软总裁在社交媒体上为自家大模型站台,评论道:“我们研发的MatterGen模型可以大幅提升新材料的按需研发效率”(图2)。[2]
2024年1月,微软与美国能源部下属的西北太平洋国家实验室(PNNL)合作,利用人工智能和高性能计算,从3200万种无机材料中筛选出了一种全固态电解质材料,完成了从预测到实验的闭环,该技术可助力下一代锂离子电池材料研发(图3)。[3]
图3. 微软的科学家从3200万种无机材料中筛选出全固态电解质材料,并实验验证。
材料科学无疑是一门重要科学,也是近代工业飞速发展的支柱学科。从石器时代到青铜时代,再到铁器时代,人类文明的各个演化阶段都和材料紧密相关。陶瓷为华夏文明的繁荣立下了汗马功劳;玻璃促成了光学器件的发明,为细胞生物学和天文学的进步打下了伏笔。可以说,人类文明发展史正是一部材料科学的演化史。
近期,人工智能技术的进步可谓是一日千里,卷到飞起。将人工智能方法引入科研已成为一个重要的交叉学科方向。除了Google和微软,Meta和字节跳动也在近期布局了相似的研发方向。Meta AI与美国高校合作,开发了行业顶级的催化材料数据集Open Catalyst Project和有机金属框架吸附数据集OpenDAC。一时间,科技巨头凭借自家的技术,将材料科学领域搅动到风起云涌。无机材料科学成为了他们的新赛道。
人工智能是如何变革材料研发的?科技巨头们看准了相同的技术路线)通过理论计算获取材料科学数据;(2)通过高通量计算生产海量此类数据;(3)再将数据喂给人工智能模型;(4)借助模型推理未知材料的性能。这也意味着这是一种行之有效的技术方案,前景广阔。
人工智能是否将变革未来材料科学的研发方式?答案是肯定的。数据、算法、算力也将成为促成这场变革的核心因素。在铺天盖地的新闻和宣传中,让我们以Google发布的数据集为切入点,对其详细内容和逻辑一探究竟。
1. 继生物医药行业之后,材料科学是人工智能大举进入的下一个风口。数年前AI搅动生物和制药领域,美国的Schrödinger公司、Atomwise公司等众多企业的软件和模型让制药行业看到了新机会,在原子尺度筛选目标药物分子成为了各大药厂研发管线中的重要一环。
然而药物研发周期长,研发成本高,审批环节严格,因此已有部分AI制药公司转战材料科学。比如Schrödinger公司成立了材料科学部门。本质上,不论是生物医药还是物质科学,AI赋能背后的逻辑是一致的:通过人工智能方法,找到原子间相互作用的求解器和模拟器。
科技巨头们意识到,材料科学和制药有着相同的底层逻辑。万事具备,只欠“数据”。数据是人工智能起飞的助推剂,数据集的大小和质量高低直接决定了人工智能的预测本领。近期,得益于材料基因工程和若干材料科学数据库的发展,该领域已具备优质的数据资源,人工智能崛起的前提条件已经铺垫好了。
2. 数据集是人工智能大厦的地基。人工智能领域对数据的依赖度极高,数据集的覆盖度和质量直接决定了人工智能模型的高度。数据集的覆盖度决定了模型的泛化本领,数据集的一致性和可比较性决定了模型的预测精度。在人工智能数据、算法、算力三大要素中,数据是最具技术壁垒的环节。例如:GPT 3.5、Llama 2等大语言模型,即使开源模型源代码,也都选择不公布其数据集,没有优秀的数据集作为支。