2025年4月29日,阿里巴巴通义千问团队正式发布新一代大型语言模型Qwen3系列(官方博客文章),包含8个版本(涵盖MoE混合专家模型和Dense稠密模型),并继续采用Apache 2.0这一较宽松的协议开源(仅限制部分商用场景)。该系列模型在性能、推理能力和部署成本等方面取得了显著突破,超越了DeepSeek R1、OpenAI o1等全球顶尖模型,成为当前性能领先的开源大语言模型。
Qwen3采用混合专家(MoE)架构,总参数量235B,激活仅需22B,参数量仅为DeepSeek R1的三分之一,成本大幅下降。同时,Qwen3还是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型。对于简单需求,模型可低算力“秒回”答案;对于复杂问题,则可进行多步骤“深度思考”,大大节省了算力消耗。
在推理、指令遵循、工具调用、多语言能力等方面,Qwen3均有大幅增强。在官方测评中,Qwen3创下多项国产模型及全球开源模型的性能新高:在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现超过Grok3;在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI o1及DeepSeek R1。
性能大幅提升的同时,Qwen3的部署成本大幅下降,仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一。对于部署,官方建议使用SGLang和vLLM等框架;对于本地使用,官方强烈推荐使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。
此外,Qwen3还提供和开源了丰富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款稠密模型,每款模型均斩获同尺寸开源模型最佳性能(SOTA)。其中,Qwen3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5 - 32B模型性能;Qwen3的稠密模型性能继续突破,一半的参数量可实现同样的高性能,如32B版本的Qwen3模型可跨级超越Qwen2.5 - 72B性能。
Qwen3系列模型依旧采用宽松的Apache2.0协议开源,并首次支持119多种语言。全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载模型并商用,也可以通过阿里云百炼调用Qwen3的API服务。
Qwen3技术亮点:一个模型,两种思考模式
Qwen3 模型支持两种思考模式:
- 思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
- 非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。
-
混合推理架构
-
首创“快思考”与“慢思考”模式:
- 思考模式:适用于复杂问题(如数学证明、长链推理),通过逐步推理生成答案;
- 非思考模式:针对简单任务提供即时响应,提升交互流畅性。
-
这种设计使用户可灵活分配计算资源,在成本与质量间实现动态平衡 。
-
-
参数与性能突破
- Qwen3-235B-A22B:总参数2350亿,激活参数220亿,性能超越DeepSeek-R1等超大规模模型;
- Qwen3-30B-A3B:总参数仅300亿,激活参数30亿,以1/10激活参数量达到QwQ-32B的性能水平 。
-
多模态与全球化能力
- 支持119种语言(含中文方言、阿拉伯语变体等);
- 增强Agent能力,优化代码生成、工具调用及环境交互,适配编程、科研等场景,同时也加强了对 MCP 的支持 。
-
训练数据与效率优化
- 预训练数据达36万亿token(两倍于Qwen2.5),涵盖文本、PDF文档及合成数学/代码数据;
- 上下文长度扩展至128K token,推理效率提升显著(成本仅为竞品的1/3) 。
Qwen3竞品参数与性能对比
模型名称 | 参数总量 | 激活参数 | 训练数据量 | 上下文长度 | 推理效率(相对值) | 成本(相对值) | 典型基准评分(MMLU/HumanEval) |
---|---|---|---|---|---|---|---|
Qwen3-235B-A22B | 2350B | 220B | 36T | 128K | 1.5× | 0.3× | MMLU: 89.2 / HumanEval: 92.1 |
Qwen3-30B-A3B | 300B | 30B | 36T | 128K | 1.2× | 0.2× | MMLU: 85.4 / HumanEval: 88.7 |
DeepSeek-R1 | ~700B | ~660B | 18T | 32K | 1× | 1× | MMLU: 87.5 / HumanEval: 89.0 |
OpenAI o1 | N/A | N/A | N/A | 131K | 0.8× | 1.5× | MMLU: 88.0 / HumanEval: 90.5 |
Google Gemini-2.5-Pro | 1400B | 1400B | 28T | 64K | 0.7× | 2× | MMLU: 86.8 / HumanEval: 87.3 |
Grok-3 | 3160B | 3160B | 20T | 8K | 0.5× | 3× | MMLU: 84.0 / HumanEval: 85.0 |
微信扫描下方的二维码阅读本文