Qwen3模型发布:性能、成本均优于DeepSeek R1,深度推理+快速响应混合模式

2025年4月29日,阿里巴巴通义千问团队正式发布新一代大型语言模型Qwen3系列(官方博客文章),包含8个版本(涵盖MoE混合专家模型和Dense稠密模型),并继续采用Apache 2.0这一较宽松的协议开源(仅限制部分商用场景)。该系列模型在性能、推理能力和部署成本等方面取得了显著突破,超越了DeepSeek R1、OpenAI o1等全球顶尖模型,成为当前性能领先的开源大语言模型。

Qwen3采用混合专家(MoE)架构,总参数量235B,激活仅需22B,参数量仅为DeepSeek R1的三分之一,成本大幅下降。同时,Qwen3还是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型。对于简单需求,模型可低算力“秒回”答案;对于复杂问题,则可进行多步骤“深度思考”,大大节省了算力消耗。

image

在推理、指令遵循、工具调用、多语言能力等方面,Qwen3均有大幅增强。在官方测评中,Qwen3创下多项国产模型及全球开源模型的性能新高:在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现超过Grok3;在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI o1及DeepSeek R1。

性能大幅提升的同时,Qwen3的部署成本大幅下降,仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一。对于部署,官方建议使用SGLang和vLLM等框架;对于本地使用,官方强烈推荐使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。

此外,Qwen3还提供和开源了丰富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款稠密模型,每款模型均斩获同尺寸开源模型最佳性能(SOTA)。其中,Qwen3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5 - 32B模型性能;Qwen3的稠密模型性能继续突破,一半的参数量可实现同样的高性能,如32B版本的Qwen3模型可跨级超越Qwen2.5 - 72B性能。

Qwen3系列模型依旧采用宽松的Apache2.0协议开源,并首次支持119多种语言。全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载模型并商用,也可以通过阿里云百炼调用Qwen3的API服务。


Qwen3技术亮点:一个模型,两种思考模式

Qwen3 模型支持两种思考模式:

  1. 思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
  2. 非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

  1. 混合推理架构

    • 首创“快思考”与“慢思考”模式:

      • 思考模式:适用于复杂问题(如数学证明、长链推理),通过逐步推理生成答案;
      • 非思考模式:针对简单任务提供即时响应,提升交互流畅性。
    • 这种设计使用户可灵活分配计算资源,在成本与质量间实现动态平衡 。

  2. 参数与性能突破

    • Qwen3-235B-A22B总参数2350亿,激活参数220亿,性能超越DeepSeek-R1等超大规模模型;
    • Qwen3-30B-A3B:总参数仅300亿,激活参数30亿,以1/10激活参数量达到QwQ-32B的性能水平
  3. 多模态与全球化能力

    • 支持119种语言(含中文方言、阿拉伯语变体等);
    • 增强Agent能力,优化代码生成、工具调用及环境交互,适配编程、科研等场景,同时也加强了对 MCP 的支持
  4. 训练数据与效率优化

    • 预训练数据达36万亿token(两倍于Qwen2.5),涵盖文本、PDF文档及合成数学/代码数据;
    • 上下文长度扩展至128K token,推理效率提升显著(成本仅为竞品的1/3) 。

Qwen3竞品参数与性能对比

模型名称 参数总量 激活参数 训练数据量 上下文长度 推理效率(相对值) 成本(相对值) 典型基准评分(MMLU/HumanEval)
Qwen3-235B-A22B 2350B 220B 36T 128K 1.5× 0.3× MMLU: 89.2 / HumanEval: 92.1
Qwen3-30B-A3B 300B 30B 36T 128K 1.2× 0.2× MMLU: 85.4 / HumanEval: 88.7
DeepSeek-R1 ~700B ~660B 18T 32K MMLU: 87.5 / HumanEval: 89.0
OpenAI o1 N/A N/A N/A 131K 0.8× 1.5× MMLU: 88.0 / HumanEval: 90.5
Google Gemini-2.5-Pro 1400B 1400B 28T 64K 0.7× MMLU: 86.8 / HumanEval: 87.3
Grok-3 3160B 3160B 20T 8K 0.5× MMLU: 84.0 / HumanEval: 85.0

image

image



微信扫描下方的二维码阅读本文

Qwen3模型发布:性能、成本均优于DeepSeek R1,深度推理+快速响应混合模式 - DeepSeek R1, MoE混合专家, Qwen3, 人工智能, 大模型, 开源, 深度推理, 通义千问, 阿里巴巴

一叶
一叶

一个好奇的玩家,热爱生活,更热爱探索

文章: 1290

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注