中国AI公司MiniMax近日发布了一份关于其M2系列语言模型(M2、M2.5、M2.7)的详细技术报告,披露了多项工程创新,同时预告了下一代M3系列模型将采用全新的稀疏注意力机制(Sparse Attention Mechanism)。据公司介绍,M3模型通过定制的子二次方框架(sub-quadratic framework),在处理百万token级长上下文时,解码速度(即模型响应速度)可提升最高15.6倍,从而使超长上下文AI代理的部署在经济学上变得可行。
- 京口令:
!J6NHf5HOewRhyCM3! CZ154- 淘口令:
88¥ MF168 h0W85DSomYr¥

M2系列的技术报告同样引人关注。该系列采用稀疏混合专家(Sparse Mixture-of-Experts, MoE)解码器仅Transformer架构,总参数规模达到2299亿,但通过256个细粒度专家,每个token仅激活98亿参数,保持了较小的实际运算足迹。在路由机制上,MiniMax采用sigmoid门控配合可学习的专家偏置项,替代了常规的辅助损失约束,从而有效平衡负载。此外,模型在所有62层中严格使用了完整的多头注意力与分组查询注意力(Grouped Query Attention, GQA),这也是M2性能表现突出的关键设计之一。


