MiniMax预告M3模型:稀疏注意力机制实现15.6倍长上下文解码加速

MiniMax发布M2技术报告并预告M3模型,采用新的稀疏注意力机制,在百万token上下文中解码速度提升15.6倍,使超长上下文AI代理部署经济可行。

中国AI公司MiniMax近日发布了一份关于其M2系列语言模型(M2、M2.5、M2.7)的详细技术报告,披露了多项工程创新,同时预告了下一代M3系列模型将采用全新的稀疏注意力机制(Sparse Attention Mechanism)。据公司介绍,M3模型通过定制的子二次方框架(sub-quadratic framework),在处理百万token级长上下文时,解码速度(即模型响应速度)可提升最高15.6倍,从而使超长上下文AI代理的部署在经济学上变得可行。

  • 京口令:!J6NHf5HOewRhyCM3! CZ154
  • 淘口令:88¥ MF168 h0W85DSomYr¥
MiniMax预告M3模型:稀疏注意力机制实现15.6倍长上下文解码加速 - AI代理, M2系列, M3模型, MINIMAX, 混合专家模型, 稀疏注意力, 解码加速, 长上下文

M2系列的技术报告同样引人关注。该系列采用稀疏混合专家(Sparse Mixture-of-Experts, MoE)解码器仅Transformer架构,总参数规模达到2299亿,但通过256个细粒度专家,每个token仅激活98亿参数,保持了较小的实际运算足迹。在路由机制上,MiniMax采用sigmoid门控配合可学习的专家偏置项,替代了常规的辅助损失约束,从而有效平衡负载。此外,模型在所有62层中严格使用了完整的多头注意力与分组查询注意力(Grouped Query Attention, GQA),这也是M2性能表现突出的关键设计之一。

发表回复