面壁智能联合清华大学开源1.58-bit端侧大模型BitCPM-CANN,首次实现全链路华为昇腾训练

面壁智能联合清华大学、OpenBMB开源社区发布BitCPM-CANN,中国首个完全基于华为昇腾的三值(1.58-bit)大模型,覆盖0.5B至8B参数,实现国产算力全链路训练。

面壁智能联合清华大学、OpenBMB开源社区发布BitCPM-CANN,中国首个完全基于华为昇腾的三值(1.58-bit)大模型,覆盖0.5B至8B参数,实现国产算力全链路训练。

面壁智能联合清华大学、OpenBMB在华为鲲鹏昇腾开发者大会上发布BitCPM-CANN三值大模型系列,基于1.58-bit量化技术,在昇腾上实现端到端训练,能力保留率最高97.2%,显存节省6倍,四个尺寸全部开源。