MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你

MiniMax M3 今日正式发布。 MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA (MiniMax Sparse Attention),最高支持 1M 超长上下文。 如外界所期待的那样,它也是一个原生多模态模型,支持图片和视频的输入,并能操作电脑桌面。 这三种能力是海外闭源前沿模型所必须拥有的。M3 是国内第一个齐备这些要素的模型,也是目前唯一的开源模型。 在衡量 Coding 能力的 SWE-Bench Pro 上,MiniMax M3 超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。在综合评估 SVG 生成性能的基准 SVG-Bench 上,MiniMax M3 超过 Opus 4.7。 而在多模态测试集 OmniDocBench 上,MiniMax M3 得分超过 Gemini 3.1 Pro,在面向自主 Agent 的端到端评测框架 Claw-Eval 上,MiniMax M3 得到最高分。(*详细对比图和测评方法见文末) 你可以在 MiniMax Code, Token Plan

MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你 - 1M上下文, Agentic Coding, AI大模型, G80 M3, MINIMAX

和我们的 API 服务中第一时间体验到 MiniMax M3。 MSA: 结构创新带来 Context Scaling 在设计 MiniMax M3 模型时,解决更复杂的 Agent 任务是它最重要的目标之一,而其中最大挑战就包括 context scaling。要实现真正的改变,必须从最底层的注意力机制入手,避开全注意力机制计算复杂度平方级增长的“先天缺陷”。 MSA 是一个简洁且易于扩展的全新稀疏注意力架构,它给 M3 带来了 1M 的上下文窗口,并让 context 真正成为又一个可被 scale 的维度。 稀疏注意力机制普遍通过增加一个初筛阶段来避免复杂度爆炸问题。与 DSA 和 MoBA 等方案相比,MSA 可以更精确为 KV 分块,实现更高的有效上下文覆盖。 同时,我们还在算子层直接优化,采用以 KV 块为外层来聚合命中 query 的 KV outer gather Q。每块只读一次、访存连续,在 M3 的 head 配比下计算访存比显著优于通行方法,比开源的 Flash-Sparse-Attention、FlashMoBA 快 4 倍以上。 简洁可扩展、易于实现且硬件友好的特点,使它的理论收益能真正落地:在 100 万上下文下,M3 每 token 计算量仅为上代模型的 1/20。在 prefilling 阶段,我们实现了超过 9 倍的加速倍率,在 decoding 阶段有超过 15 倍的加速优势。而且在多个对照实验中,MSA 的绝大部分能力与全注意力打平。 前沿的Coding和Agentic能力 Coding 与 Agent 能力是 M3 重点提升之处,在涵盖软件工程、终端执行等多个维度的国际权威评测中,M3 均达到国际领先水平: SWE-Bench Pro: 59.0% Terminal Bench 2.1: 66.0% SWE-fficiency: 34.8% KernelBench Hard: 28.8% MCP Atlas: 74.2% 今天的 Coding 能力越发取决于能否用真实世界的用户逻辑来训练模型。这意味着仅靠现有 Coding Benchmark 难以完整刻画真实用户体验。 当前大多数代码 Agent 的训练与评测,都建立在单轮任务(single-turn task)的假设之上。但真实使用场景并非如此。用户往往会在同一个 Session 中持续协作:不断澄清需求、调整方案、交叉派发任务,并根据中间结果进行多轮迭代优化。 为了缩小 Benchmark 与真实使用体验之间的差距,我们构建了交互式用户模拟器框架。 它通过模拟真实开发者在协作过程中的行为模式,让模型在训练和评测阶段就接触到更加接近生产环境的交互场景。该框架能够模拟需求补充、方案讨论、反馈修正、连续任务切换以及复杂项目迭代等行为,使 Agent 不再只是被动执行指令,而是能够主动与用户协同完成任务。 下一代 Agent Coding 比的不仅是代码生成,更要比拼长期协作能力、规划能力以及人与 Agent 的协同效率。M3 把真正对 Coding 和 Agent 至关重要的数据 Scale up,目标不仅是在 Benchmark 上取得领先,更是在真实研发流程中成为开发者可靠的协作伙伴。 多模态: 原生训练,继续 Scale M3 是一个从 Step 0 开始进行多模态混合训练的模型。这种原生多模态的路线能让不同模态数据的语义空间更天然、更高度的融合。 同时,在数据配比和构成上,我们的大量实验显示,Interleaved data(交错数据)对模型性能带



微信扫描下方的二维码阅读本文

MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你 - 1M上下文, Agentic Coding, AI大模型, G80 M3, MINIMAX

发表回复