材料基座模型MPA发布:40个工业任务全面SOTA,AI4S迎来核心突破

深度原理(Deep Principle)发布材料基座模型MPA,借鉴LLM三段式训练,加入中期训练和Hybrid Readout混合头,在40个真实工业任务上取得SOTA。模型在骨架划分等困难场景下提升显著,综合表现领先ChemBERTa、Uni-Mol2等主流模型。

AI模型在计算机上预测精度爆表,一到实验室就各种出错用不了?这是AI for Science(AI4S)领域长期面临的现实。理论计算和真实实验之间的偏差根深蒂固,如果模型一直只在计算生成的完美数据上训练,一旦面对真实数据——那些带有噪声、误差、特定工业需求的数据集合——表现便会大幅跳水。尽管AI4S模型在Matbench Discovery、Open Catalyst Project等计算理论榜单上不断刷新成绩,材料领域也不例外,但真正能胜任工业级实验预测的模型依然稀缺。

深度原理(Deep Principle)最新发布的材料基座模型MPA(Materials Property Axiom)走了一条截然不同的路径——直接借鉴大语言模型(LLM)的训练方式,在40个真实工业任务数据集上全面取得SOTA,成为首个在如此广度的工业实验任务上实现全面领先的基座模型。

训练模式革新:引入LLM三段式流程

MPA基于图Transformer架构,主体分为存储通用知识的“躯干”和适配不同训练任务的“头”。在训练流程上,它突破了传统“预训练-微调”两段模式,引入大语言模型中广泛使用的中期训练(mid-training)环节。在LLM实践中,中期训练能让模型在中等规模通用任务上获得更好表现,从而提升最终微调效果。MPA将这一思路完整迁移至材料领域,目标正是弥补从理论计算直接到实验数据预测之间的鸿沟。

传统材料模型经过预训练后直接微调,中间的断层导致模型只会“记忆”分子结构而非理解物理规律。中期训练的关键是建立AI对真实材料需求的“物理直觉”。MPA使用大规模第一性原理计算数据进行物理对齐(physics-guided alignment),深度原理此前积累的大规模计算数据恰好用在此阶段。模型需要在各种基本物理特性的概念上进行对齐,从而从仅能识别分子结构上升到理解结构背后的物理规律。

以苯环为例,模型经预训练后能识别“六个碳在一个平面”“C-C键长1.4Å”等结构特征,但对苯环的生成焓、偶极矩等性质一无所知。中期训练使其进一步掌握这些物理特性,甚至能总结出“具有OH基团的分子偶极矩通常偏大”这类可推广规律。正如人类能识别五官位置但还需理解表情含义一样,模型从学习分子结构走向了学习物理概念。

Hybrid Readout混合头:双路径适配不同性质

在后训练阶段,MPA没有沿用前中期的现成“头”,而是专门设计了Hybrid Readout混合头。分子性质大致分为两类:一类与分子大小无关,如沸点、生物活性,看的是分子整体的特征;另一类与分子大小直接相关,如生成焓、燃烧焓、热容,整体等于各部分之和。Hybrid Readout设置两条路径分别处理。

自由路径不预设任何规则,通过注意力机制全局统筹每个原子的贡献,再综合判断。这种不设限的读法适合沸点、生物活性这类“气质”性质。约束路径将物理规律硬性嵌入结构:每个原子单独计算贡献,再将所有原子加和。对燃烧焓、热容这类本应逐原子累加的性质,相当于直接把正确答案的形状告诉模型。两条路径通过一个可训练参数α动态融合,α越小越倚重自由路径,α越大越倚重约束路径,模型在训练中自行决定当前性质的最优读取方式。

效果验证:40个工业任务全面领先

MPA从两个维度验证了设计的有效性。首先是消融实验:同一MPA预训练模型,一组直接微调(不加中期训练和Hybrid Readout),另一组走完整流程。两者在40个真实实验性质上一一对比,完整流程在几乎所有任务上更准(绿色向外代表更准,红色向内代表更差)。特别值得注意的是,在骨架划分(测试集材料空间在训练时从未出现)场景下,提升幅度最为明显。这恰恰说明模型学到的是可迁移的物理直觉(inductive bias),而非死记硬背分子结构。

其次,MPA与ChemBERTa、ChemProp、Chemeleon、Uni-Mol2、Suiren等五个主流分子性质预测模型进行全面对比。对比采用随机划分和骨架划分两种方式,每个性质上综合最优的模型获得标记。结果显示,无论随机划分还是骨架划分,MPA综合表现都是这批模型中最强的,而它的最大优势正好出现在骨架划分这种“分布漂移”的硬场景下,一举拿下最多数量的最优标记。两类结果指向同一个结论:MPA最擅长的正是面对陌生结构、需要真实实验外推的场合。

MPA的上述成果表明,借鉴LLM的训练范式——尤其是加入中期训练和Hybrid Readout头——能够有效提升材料基座模型在真实实验场景中的预测能力。在真实数据稀缺、理论计算与实验偏差长期存在的背景下,这一思路为AI4S解决预测落地难题提供了一条可验证的路径。

本文参考来源:量子位



微信扫描下方的二维码阅读本文

材料基座模型MPA发布:40个工业任务全面SOTA,AI4S迎来核心突破 - AI Companion, AI4S, Hybrid Readout, Mixture-of-Transformers, 中期训练, 材料基座模型, 深度原理, 物理直觉

发表回复