面壁智能发布全球首个AI自主编写预训练框架ForgeTrain及MiniCPM5-1B模型

面壁智能发布全球首个完全由AI编写的大模型预训练框架ForgeTrain,并用该框架训练出端侧模型MiniCPM5-1B。ForgeTrain训练速度比英伟达Megatron快10%,在华为昇腾上也有10%加速。MiniCPM5-1B以1B参数刷新智能密度上限,在AA-Index上超越所有2B以下模型。

面壁智能发布全球首个完全由AI编写的大模型预训练框架ForgeTrain,并用该框架训练出端侧模型MiniCPM5-1B。ForgeTrain训练速度比英伟达Megatron快10%,在华为昇腾上也有10%加速。MiniCPM5-1B以1B参数刷新智能密度上限,在AA-Index上超越所有2B以下模型。

面壁智能联合清华大学、OpenBMB开源社区发布BitCPM-CANN,中国首个完全基于华为昇腾的三值(1.58-bit)大模型,覆盖0.5B至8B参数,实现国产算力全链路训练。

面壁智能联合清华大学、OpenBMB在华为鲲鹏昇腾开发者大会上发布BitCPM-CANN三值大模型系列,基于1.58-bit量化技术,在昇腾上实现端到端训练,能力保留率最高97.2%,显存节省6倍,四个尺寸全部开源。