MiniMax预告M3模型：稀疏注意力机制实现15.6倍长上下文解码加速

中国AI公司MiniMax近日发布了一份关于其M2系列语言模型（M2、M2.5、M2.7）的详细技术报告，披露了多项工程创新，同时预告了下一代M3系列模型将采用全新的稀疏注意力机制（Sparse Attention Mechanism）。据公司介绍，M3模型通过定制的子二次方框架（sub-quadratic framework），在处理百万token级长上下文时，解码速度（即模型响应速度）可提升最高15.6倍，从而使超长上下文AI代理的部署在经济学上变得可行。

京东618红包

淘宝红包

百亿补贴
多多金蛋

京口令：！J6NHf5HOewRhyCM3！ CZ154

淘口令：88￥ MF168 h0W85DSomYr￥

MiniMax预告M3模型：稀疏注意力机制实现15.6倍长上下文解码加速 - AI代理, M2系列, M3模型, MINIMAX, 混合专家模型, 稀疏注意力, 解码加速, 长上下文

M2系列的技术报告同样引人关注。该系列采用稀疏混合专家（Sparse Mixture-of-Experts, MoE）解码器仅Transformer架构，总参数规模达到2299亿，但通过256个细粒度专家，每个token仅激活98亿参数，保持了较小的实际运算足迹。在路由机制上，MiniMax采用sigmoid门控配合可学习的专家偏置项，替代了常规的辅助损失约束，从而有效平衡负载。此外，模型在所有62层中严格使用了完整的多头注意力与分组查询注意力（Grouped Query Attention, GQA），这也是M2性能表现突出的关键设计之一。

MiniMax预告M3模型：稀疏注意力机制实现15.6倍长上下文解码加速

阿逸

发表回复取消回复

阿逸

相关文章

LangSmith Engine公测上线：自动闭环代理调试，让AI错误识别更可控

AI代理迎来专属浏览器：Rotunda基于Firefox分支，透明处理指纹识别

MINIMAX是什么公司？MINIMAX M2.1模型怎么样？对比GPT5、Gemini 3性能如何？

发表回复取消回复