Qwen3模型发布：性能、成本均优于DeepSeek R1，深度推理+快速响应混合模式

2025年4月29日，阿里巴巴通义千问团队正式发布新一代大型语言模型Qwen3系列（官方博客文章），包含8个版本（涵盖MoE混合专家模型和Dense稠密模型），并继续采用Apache 2.0这一较宽松的协议开源（仅限制部分商用场景）。该系列模型在性能、推理能力和部署成本等方面取得了显著突破，超越了DeepSeek R1、OpenAI o1等全球顶尖模型，成为当前性能领先的开源大语言模型。

Qwen3采用混合专家（MoE）架构，总参数量235B，激活仅需22B，参数量仅为DeepSeek R1的三分之一，成本大幅下降。同时，Qwen3还是国内首个“混合推理模型”，将“快思考”与“慢思考”集成进同一个模型。对于简单需求，模型可低算力“秒回”答案；对于复杂问题，则可进行多步骤“深度思考”，大大节省了算力消耗。

在推理、指令遵循、工具调用、多语言能力等方面，Qwen3均有大幅增强。在官方测评中，Qwen3创下多项国产模型及全球开源模型的性能新高：在奥数水平的AIME25测评中，Qwen3斩获81.5分，刷新开源纪录；在考察代码能力的LiveCodeBench评测中，Qwen3突破70分大关，表现超过Grok3；在评估模型人类偏好对齐的ArenaHard测评中，Qwen3以95.6分超越OpenAI o1及DeepSeek R1。

性能大幅提升的同时，Qwen3的部署成本大幅下降，仅需4张H20即可部署满血版，显存占用仅为性能相近模型的三分之一。对于部署，官方建议使用SGLang和vLLM等框架；对于本地使用，官方强烈推荐使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。

此外，Qwen3还提供和开源了丰富的模型版本，包含2款30B、235B的MoE模型，以及0.6B、1.7B、4B、8B、14B、32B等6款稠密模型，每款模型均斩获同尺寸开源模型最佳性能（SOTA）。其中，Qwen3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升，仅激活3B就能媲美上代Qwen2.5 - 32B模型性能；Qwen3的稠密模型性能继续突破，一半的参数量可实现同样的高性能，如32B版本的Qwen3模型可跨级超越Qwen2.5 - 72B性能。

Qwen3系列模型依旧采用宽松的Apache2.0协议开源，并首次支持119多种语言。全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载模型并商用，也可以通过阿里云百炼调用Qwen3的API服务。

Qwen3技术亮点：一个模型，两种思考模式

Qwen3 模型支持两种思考模式：

思考模式：在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述，Qwen3 展现出可扩展且平滑的性能提升，这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算，在成本效益和推理质量之间实现更优的平衡。

混合推理架构
- 首创“快思考”与“慢思考”模式：
  - 思考模式：适用于复杂问题（如数学证明、长链推理），通过逐步推理生成答案；
  - 非思考模式：针对简单任务提供即时响应，提升交互流畅性。
- 这种设计使用户可灵活分配计算资源，在成本与质量间实现动态平衡。
参数与性能突破
- Qwen3-235B-A22B：总参数2350亿，激活参数220亿，性能超越DeepSeek-R1等超大规模模型；
- Qwen3-30B-A3B：总参数仅300亿，激活参数30亿，以1/10激活参数量达到QwQ-32B的性能水平 。
多模态与全球化能力
- 支持119种语言（含中文方言、阿拉伯语变体等）；
- 增强Agent能力，优化代码生成、工具调用及环境交互，适配编程、科研等场景，同时也加强了对 MCP 的支持 。
训练数据与效率优化
- 预训练数据达36万亿token（两倍于Qwen2.5），涵盖文本、PDF文档及合成数学/代码数据；
- 上下文长度扩展至128K token，推理效率提升显著（成本仅为竞品的1/3）。

Qwen3竞品参数与性能对比

模型名称	参数总量	激活参数	训练数据量	上下文长度	推理效率（相对值）	成本（相对值）	典型基准评分（MMLU/HumanEval）
Qwen3-235B-A22B	2350B	220B	36T	128K	1.5×	0.3×	MMLU: 89.2 / HumanEval: 92.1
Qwen3-30B-A3B	300B	30B	36T	128K	1.2×	0.2×	MMLU: 85.4 / HumanEval: 88.7
DeepSeek-R1	~700B	~660B	18T	32K	1×	1×	MMLU: 87.5 / HumanEval: 89.0
OpenAI o1	N/A	N/A	N/A	131K	0.8×	1.5×	MMLU: 88.0 / HumanEval: 90.5
Google Gemini-2.5-Pro	1400B	1400B	28T	64K	0.7×	2×	MMLU: 86.8 / HumanEval: 87.3
Grok-3	3160B	3160B	20T	8K	0.5×	3×	MMLU: 84.0 / HumanEval: 85.0

Qwen3模型发布：性能、成本均优于DeepSeek R1，深度推理+快速响应混合模式

Qwen3技术亮点：一个模型，两种思考模式

Qwen3竞品参数与性能对比

一叶

留下评论取消回复

Qwen3技术亮点：一个模型，两种思考模式

Qwen3竞品参数与性能对比

一叶

相关文章

Ollama安装HuggingFace模型与本地GGUF模型的几种方法

Google Nano Banana Pro有多强大？怎么配合Lovart使用？

小冰就是呱噪的你自己

留下评论取消回复