2025年12月1日,深度求索公司同时发布两款正式版模型:DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale(官方新闻稿)。

一款模型在四项国际顶级学科竞赛中斩获金牌,另一款在日常推理中与GPT-5平分秋色,今天同步开源的这两个模型,正在以技术路线创新而非算力堆砌,重新定义开源AI的能力边界。
两款模型均已在HuggingFace和ModelScope平台开源。官方网页端、App和API已全面升级至DeepSeek-V3.2正式版。
Speciale版本则作为临时API服务开放至12月15日,供社区研究评测。
01 性能飞跃:开源模型首次全面匹敌闭源顶流
根据官方技术报告,此次发布的DeepSeek-V3.2系列在推理能力上实现了历史性突破。DeepSeek-V3.2 在公开的推理基准测试中达到了GPT-5的水平,仅略低于Gemini-3.0-Pro。

与同类思考模型相比,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。该模型支持128K上下文长度,适合日常问答、写作辅助和通用智能体任务。
更令人瞩目的是 DeepSeek-V3.2-Speciale,这款专为极致推理设计的模型在多项国际顶级竞赛中斩获金牌。具体成绩如下:
-
国际数学奥林匹克 (IMO 2025):金牌
-
中国数学奥林匹克 (CMO 2025):金牌
-
国际大学生程序设计竞赛 (ICPC 2025):金牌,达到人类选手第二名水平· 国际信息学奥林匹克 (IOI 2025):金牌,达到人类选手第十名水平
Speciale版本是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。它在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro。
官方提示,Speciale版本在处理高度复杂任务时消耗的Token显著更多、成本更高,目前仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务优化。
02 架构革新:DSA稀疏注意力机制突破效率瓶颈
DeepSeek-V3.2系列模型的核心创新是 DeepSeek稀疏注意力机制。这一架构创新最早在2025年9月发布的实验性版本V3.2-Exp中进行了验证。
DSA机制的核心思路是:并非每个token都需要关注全部上下文,只需关注最相关的k个token。通过细粒度稀疏注意力设计,它将传统注意力机制的O(L²)复杂度降低至O(Lk)水平。
在传统Transformer中,文本长度翻10倍,计算量会翻100倍,这限制了长上下文的发展。DSA通过两个关键组件解决这一问题:
-
闪电索引器:一个轻量级打分器,以极快速度判断对于当前正在处理的token,序列中哪些历史token最重要。
-
细粒度token选择:根据闪电索引器的打分,只选top-k个token(在V3.2中k=2048)进行真正的注意力计算。
DSA训练分为两个阶段:首先进行“密集预热”阶段,冻住主模型,只训练闪电索引器对齐主注意力分布;然后进行“稀疏训练”,放开所有参数让模型适应稀疏注意力模式。
实际测试表明,在128K长度的预填充阶段,V3.2的成本基本不随位置增长,而前代V3.1-Terminus是线性增长。社区反馈显示,实验版本V3.2-Exp未在任何场景中显著弱于前代V3.1-Terminus,验证了DSA机制的有效性。
03 训练革命:后训练投入超过预训练10%
DeepSeek团队采取了一个激进策略:将后训练的计算预算提高到超过预训练成本的10%。这一比例在开源模型中相当罕见,过去开源模型的后训练投入普遍不足,限制了它们在困难任务上的表现。
后训练流程分为两个关键步骤:
- 专家蒸馏:为数学、编程、通用逻辑推理等六个领域训练专门的“专家模型”,每个领域都支持思考和非思考两种模式,然后用专家模型生成领域数据。
- 混合RL训练:把推理、智能体和人类对齐三类任务合并成一个强化学习阶段,使用GRPO算法,避免多阶段训练的灾难性遗忘。
团队特别改进了GRPO算法,包括无偏KL估计、离策略序列掩码、保持路由和保持采样掩码四个稳定化技巧,确保训练过程更加稳定高效。
04 智能体突破:思考与工具调用的首次融合
DeepSeek-V3.2是该系列中首个实现 “思考融入工具使用” 的模型。不同于过往版本在思考模式下无法调用工具的局限,V3.2同时支持思考模式与非思考模式的工具调用。
为实现这一能力,研究团队开发了大规模智能体训练数据合成方法,构建了1800多个环境和85000多条复杂指令的强化学习任务。这种 “难解答,易验证” 的任务设计使模型能够在推理过程中有机融合工具调用。
在工具调用设计上,V3.2做了重要优化:只有新的用户消息到来时才丢弃推理内容;如果只是工具返回结果,则保留推理内容;丢弃推理内容时,工具调用历史得以保留。
这一设计显著提高了效率,避免了每次工具返回结果时模型都需要重新推理的问题。在智能体评测中,V3.2达到了当前开源模型的最高水平,大幅缩小了开源与闭源模型在工具调用能力上的差距。
05 数据合成:1800个环境构建泛化能力基础
泛化能力是智能体场景的另一个关键短板,根本原因在于缺乏足够多样的训练环境。DeepSeek的解决方案是自己合成大规模多样化数据。
合成数据涵盖多个领域:
- 代码智能体:24,667个任务(真实环境,提取的提示)
- 搜索智能体:50,275个任务(真实环境,合成的提示)
- 通用智能体:4,417个任务(合成环境,合成提示)
- 代码解释器:5,908个任务(真实环境,提取的提示)
合成流程相当精巧:给定一个任务类型,智能体先用bash和搜索工具从网上拉取数据,存储到沙箱数据库;然后合成一套任务相关的工具函数;从简单任务开始,迭代增加难度,同时更新解决方案和验证函数;如果现有工具不够用,智能体会自动扩展工具集。
最终得到了1,827个环境和4,417个任务。这类“难解易验”的任务特别适合强化学习,因为验证解决方案的正确性相对简单,而寻找解决方案却非常困难。
消融实验证明,仅在合成的通用智能体数据上进行强化学习,就能在多个基准测试上带来显著提升。相比之下,仅在代码和搜索环境上进行强化学习,则在这些基准上没有明显提升。
06 性能对比:具体基准测试中的数据表现
根据多个独立评测,DeepSeek-V3.2系列在关键基准测试中表现出色。以下是部分核心数据对比:
数学推理能力
-
AIME 2025:DeepSeek-V3.2得分93.1%,Speciale版本达99.2%,GPT-5-High为90.8%,Gemini-3.0-Pro为90.2%
-
HMMT 2025:DeepSeek-V3.2得分94.6%,Speciale版本达99.0%
编程与代码能力
- Codeforces评分:DeepSeek-V3.2为2701,Speciale版本为2708,GPT-5-High为2537
- SWE-Verified:DeepSeek-V3.2解决率达73.1%,Speciale版本为77.2%
智能体与工具调用 - T²测试:DeepSeek-V3.2通过率84.8%,GPT-5-High为82.0%· 工具调用评估:DeepSeek-V3.2通过率84.7%
需要指出的是,Token效率是DeepSeek-V3.2目前的一个短板。例如在Codeforces测试中,Gemini-3.0-Pro用22k tokens得到2708分,DeepSeek-V3.2用42k tokens得到2386分,Speciale版本用77k tokens得到2701分。
07 产业影响:开源生态与国产算力的协同突破
DeepSeek-V3.2系列的发布标志着开源模型首次在多项关键能力上达到顶级闭源商业模型的水平。这对AI产业生态将产生深远影响。
API价格革命性下调:自实验版发布起,DeepSeek API价格已大幅下调。根据9月份V3.2-Exp发布时的信息,API调用成本降低了50%以上。输出token成本降至每百万tokens 3元。
国产算力深度协同:华为昇腾、寒武纪、海光等国产AI芯片厂商已实现对DeepSeek-V3.2系列的适配。寒武纪甚至同步开源了vLLM-MLU推理引擎。这种软硬协同优化有助于降低训练和推理成本,推动国产算力生态发展。
开源生态新标杆:两款模型均基于MIT许可协议开源,允许开发者自由使用、修改和分发。高性能可定制模型的出现降低了构建复杂AI应用的门槛,企业不再完全依赖海外API服务。
大模型竞争的重点正从“参数规模竞赛”转向 “方法创新竞赛”。DeepSeek通过DSA架构、大规模后训练和思考-工具融合机制,展示了通过算法创新实现效率突破的路径。
08 局限与未来:坦诚面对的挑战
DeepSeek团队在技术报告中坦诚指出了三个主要局限:
- 世界知识不够丰富:受训练算力限制,知识广度不如Gemini-3.0-Pro。团队计划未来扩大预训练规模。
- Token效率偏低:达到相同输出质量需要生成更多token,需要优化推理链的“智能密度”。
- 最困难任务仍有差距:在最顶尖的复杂任务上,与Gemini-3.0-Pro相比还有提升空间。
这三个局限指向同一个核心问题:算力资源。预训练算力不足限制了知识广度,后训练算力不足影响了token效率,基础模型能力不足制约了在最难任务上的表现。
但反过来看,DeepSeek在有限算力下取得如此突破,或许恰恰说明其技术路线是正确的。通过DSA解决效率问题,使得大规模后训练成为可能;大规模后训练带来更高回报;大规模合成数据则让智能体能力的泛化成为现实。
国际数学奥林匹克、国际大学生程序设计竞赛、国际信息学奥林匹克——在这些人类智力巅峰的竞技场上,DeepSeek-V3.2-Speciale模型全部斩获金牌,其ICPC成绩达到了人类选手第二名的水平。
而它的兄弟版本DeepSeek-V3.2,则在日常对话中与GPT-5平分秋色。当闭源模型的技术垄断被算法创新打破,全球开发者手中握有了更多选择。
从今天起,大模型的竞争不再是参数的堆积,而是方法论的较量;不仅是算力的比拼,更是效率的优化。

