MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

MiniMax M3 今日正式发布。 MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA （MiniMax Sparse Attention），最高支持 1M 超长上下文。如外界所期待的那样，它也是一个原生多模态模型，支持图片和视频的输入，并能操作电脑桌面。这三种能力是海外闭源前沿模型所必须拥有的。M3 是国内第一个齐备这些要素的模型，也是目前唯一的开源模型。在衡量 Coding 能力的 SWE-Bench Pro 上，MiniMax M3 超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7。在综合评估 SVG 生成性能的基准 SVG-Bench 上，MiniMax M3 超过 Opus 4.7。而在多模态测试集 OmniDocBench 上，MiniMax M3 得分超过 Gemini 3.1 Pro，在面向自主 Agent 的端到端评测框架 Claw-Eval 上，MiniMax M3 得到最高分。（*详细对比图和测评方法见文末）你可以在 MiniMax Code， Token Plan

和我们的 API 服务中第一时间体验到 MiniMax M3。 MSA：结构创新带来 Context Scaling 在设计 MiniMax M3 模型时，解决更复杂的 Agent 任务是它最重要的目标之一，而其中最大挑战就包括 context scaling。要实现真正的改变，必须从最底层的注意力机制入手，避开全注意力机制计算复杂度平方级增长的“先天缺陷”。 MSA 是一个简洁且易于扩展的全新稀疏注意力架构，它给 M3 带来了 1M 的上下文窗口，并让 context 真正成为又一个可被 scale 的维度。稀疏注意力机制普遍通过增加一个初筛阶段来避免复杂度爆炸问题。与 DSA 和 MoBA 等方案相比，MSA 可以更精确为 KV 分块，实现更高的有效上下文覆盖。同时，我们还在算子层直接优化，采用以 KV 块为外层来聚合命中 query 的 KV outer gather Q。每块只读一次、访存连续，在 M3 的 head 配比下计算访存比显著优于通行方法，比开源的 Flash-Sparse-Attention、FlashMoBA 快 4 倍以上。简洁可扩展、易于实现且硬件友好的特点，使它的理论收益能真正落地：在 100 万上下文下，M3 每 token 计算量仅为上代模型的 1/20。在 prefilling 阶段，我们实现了超过 9 倍的加速倍率，在 decoding 阶段有超过 15 倍的加速优势。而且在多个对照实验中，MSA 的绝大部分能力与全注意力打平。前沿的Coding和Agentic能力 Coding 与 Agent 能力是 M3 重点提升之处，在涵盖软件工程、终端执行等多个维度的国际权威评测中，M3 均达到国际领先水平： SWE-Bench Pro: 59.0% Terminal Bench 2.1: 66.0% SWE-fficiency: 34.8% KernelBench Hard: 28.8% MCP Atlas: 74.2% 今天的 Coding 能力越发取决于能否用真实世界的用户逻辑来训练模型。这意味着仅靠现有 Coding Benchmark 难以完整刻画真实用户体验。当前大多数代码 Agent 的训练与评测，都建立在单轮任务（single-turn task）的假设之上。但真实使用场景并非如此。用户往往会在同一个 Session 中持续协作：不断澄清需求、调整方案、交叉派发任务，并根据中间结果进行多轮迭代优化。为了缩小 Benchmark 与真实使用体验之间的差距，我们构建了交互式用户模拟器框架。它通过模拟真实开发者在协作过程中的行为模式，让模型在训练和评测阶段就接触到更加接近生产环境的交互场景。该框架能够模拟需求补充、方案讨论、反馈修正、连续任务切换以及复杂项目迭代等行为，使 Agent 不再只是被动执行指令，而是能够主动与用户协同完成任务。下一代 Agent Coding 比的不仅是代码生成，更要比拼长期协作能力、规划能力以及人与 Agent 的协同效率。M3 把真正对 Coding 和 Agent 至关重要的数据 Scale up，目标不仅是在 Benchmark 上取得领先，更是在真实研发流程中成为开发者可靠的协作伙伴。多模态：原生训练，继续 Scale M3 是一个从 Step 0 开始进行多模态混合训练的模型。这种原生多模态的路线能让不同模态数据的语义空间更天然、更高度的融合。同时，在数据配比和构成上，我们的大量实验显示，Interleaved data（交错数据）对模型性能带

微信扫描下方的二维码阅读本文

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

阿逸

发表回复取消回复

阿逸

相关文章

拿了上百亿美元投资也要站着 梁文锋强硬表态：DeepSeek坚持AGI与开源

MiniMax预告M3模型：稀疏注意力机制实现15.6倍长上下文解码加速

AI自动撰写WordPress文章的脚本，DeepSeek V3 10秒搞定

发表回复取消回复

拿了上百亿美元投资也要站着梁文锋强硬表态：DeepSeek坚持AGI与开源