MiniMax M3发布:开源模型首度集齐超长上下文、原生多模态与桌面操控三大能力

MiniMax M3

今日,MiniMax正式推出新一代基座模型M3,在编程、智能体等专业任务上实现前沿突破。M3采用了自研的MSA(MiniMax Sparse Attention)稀疏注意力架构,支持最高1M的超长上下文处理,是上下文窗口最大的开源模型之一。更值得关注的是,M3从训练之初就进行多模态混合训练,原生支持图片与视频输入,并能直接操作电脑桌面。这三种能力此前仅为海外闭源前沿模型所具备,而M3是国内首个集齐这些要素的模型,也是目前唯一面向开发者完全开源的模型,标志着国产大模型在综合能力上迈出了重要一步。

在底层架构创新上,MSA是M3的核心亮点。传统全注意力机制的计算复杂度随上下文长度平方增长,而MSA采用稀疏注意力思路,通过精确的KV分块策略有效避免了这一问题。与DSA、MoBA等方案相比,MSA能更精细地分配KV块,实现更高有效上下文覆盖。在算子层面,MSA采用KV block outer gather Q方法,以KV块为外层聚合查询,每块只读取一次且访存连续,显著优化了计算访存比。在1M上下文场景下,M3每token计算量仅为上代模型的1/20,prefilling阶段加速超过9倍,decoding阶段加速超过15倍。同时,多项对照实验显示,MSA在绝大部分能力上能与全注意力模型持平,做到了效率与效果的兼得。

编程与智能体能力是M3的重点突破方向。在国际权威评测中,M3在SWE-Bench Pro上达到59.0%的得分,超越GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;在Terminal Bench 2.1上获得66.0%,在KernelBench Hard上达到28.8%,在MCP Atlas上获得74.2%,均处于行业领先水平。为了缩小传统单轮评测与真实协作体验之间的差距,MiniMax构建了交互式用户模拟器框架,模拟需求补充、方案讨论、多轮反馈等场景。这使得M3能够适应持续协作和规划任务,从被动执行指令进化为主动与用户协同完成复杂项目,真正提升了Agent的实用能力。

多模态方面,M3采用原生多模态训练路线,从第零步开始便将图像、视频、文本等数据混合训练,使语义空间融合更加自然,尤其重视交错数据的作用。在OmniDocBench多模态测试基准上,M3得分超过Gemini 3.1 Pro;在面向自主Agent的端到端评测Claw-Eval中,M3获得最高分;在SVG生成基准SVG-Bench上,M3同样超越Opus 4.7。这些成果表明M3在视觉理解和内容生成方面同样达到前沿水准。用户现可通过MiniMax Code、Token Plan和API服务第一时间体验M3的强大功能。作为首个齐备这些能力的开源模型,M3将为开发者社区提供广阔探索空间,推动AI在编程、智能体、多模态交互等领域的加速落地。



微信扫描下方的二维码阅读本文

MiniMax M3发布:开源模型首度集齐超长上下文、原生多模态与桌面操控三大能力 - G80 M3, MINIMAX

发表回复