MiniMax M3发布：开源模型首度集齐超长上下文、原生多模态与桌面操控三大能力

今日，MiniMax正式推出新一代基座模型M3，在编程、智能体等专业任务上实现前沿突破。M3采用了自研的MSA（MiniMax Sparse Attention）稀疏注意力架构，支持最高1M的超长上下文处理，是上下文窗口最大的开源模型之一。更值得关注的是，M3从训练之初就进行多模态混合训练，原生支持图片与视频输入，并能直接操作电脑桌面。这三种能力此前仅为海外闭源前沿模型所具备，而M3是国内首个集齐这些要素的模型，也是目前唯一面向开发者完全开源的模型，标志着国产大模型在综合能力上迈出了重要一步。

在底层架构创新上，MSA是M3的核心亮点。传统全注意力机制的计算复杂度随上下文长度平方增长，而MSA采用稀疏注意力思路，通过精确的KV分块策略有效避免了这一问题。与DSA、MoBA等方案相比，MSA能更精细地分配KV块，实现更高有效上下文覆盖。在算子层面，MSA采用KV block outer gather Q方法，以KV块为外层聚合查询，每块只读取一次且访存连续，显著优化了计算访存比。在1M上下文场景下，M3每token计算量仅为上代模型的1/20，prefilling阶段加速超过9倍，decoding阶段加速超过15倍。同时，多项对照实验显示，MSA在绝大部分能力上能与全注意力模型持平，做到了效率与效果的兼得。

编程与智能体能力是M3的重点突破方向。在国际权威评测中，M3在SWE-Bench Pro上达到59.0%的得分，超越GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7；在Terminal Bench 2.1上获得66.0%，在KernelBench Hard上达到28.8%，在MCP Atlas上获得74.2%，均处于行业领先水平。为了缩小传统单轮评测与真实协作体验之间的差距，MiniMax构建了交互式用户模拟器框架，模拟需求补充、方案讨论、多轮反馈等场景。这使得M3能够适应持续协作和规划任务，从被动执行指令进化为主动与用户协同完成复杂项目，真正提升了Agent的实用能力。

多模态方面，M3采用原生多模态训练路线，从第零步开始便将图像、视频、文本等数据混合训练，使语义空间融合更加自然，尤其重视交错数据的作用。在OmniDocBench多模态测试基准上，M3得分超过Gemini 3.1 Pro；在面向自主Agent的端到端评测Claw-Eval中，M3获得最高分；在SVG生成基准SVG-Bench上，M3同样超越Opus 4.7。这些成果表明M3在视觉理解和内容生成方面同样达到前沿水准。用户现可通过MiniMax Code、Token Plan和API服务第一时间体验M3的强大功能。作为首个齐备这些能力的开源模型，M3将为开发者社区提供广阔探索空间，推动AI在编程、智能体、多模态交互等领域的加速落地。

微信扫描下方的二维码阅读本文

MiniMax M3发布：开源模型首度集齐超长上下文、原生多模态与桌面操控三大能力

阿逸

发表回复取消回复

阿逸

相关文章

MiniMax预告M3模型：稀疏注意力机制实现15.6倍长上下文解码加速

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

宝马M3 G80确认2027年停产，手动挡CS版本为最终章

发表回复取消回复