Code Arena权威榜单：阿里千问3.7-Max编程能力全球第二

5月26日凌晨，全球权威第三方编程榜单Code Arena发布最新排名。阿里旗下旗舰模型Qwen3.7-Max获得1541分，位居全球第二，仅次于Claude系列，并超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一众模型。这标志着千问3.7在代码理解与生成领域跻身全球编程模型第一梯队。

Code Arena由知名第三方大模型盲测平台LMArena推出。与评估代码片段或传统算法题的常规基准测试不同，Code Arena要求模型从零生成完整的、可交互的Web应用程序。开发者出题后，由用户对匿名模型的生成效果进行两两盲测投票，以此综合排名。因此，该榜单被视为当前全球最具公信力的AI编程能力评测之一。

核心能力突破

据榜单显示，千问3.7模型编程能力位居前四，打破了此前由Claude-Opus-4.7和4.6长期占据的格局。Qwen3.7-Max也是目前唯一得分突破1540分的国产大模型。

据介绍，Qwen3.7-Max专为Agent智能体场景设计，在编程、智能体、长程任务等核心能力上实现大幅突破。该模型可在数小时内独立完成原本需专业团队耗时2周的复杂项目端到端交付，大幅提升办公自动化和企业级生产力。其长程任务能力可支持持续运行35小时，累计执行超1000次工具调用，甚至能自我编程优化芯片内核。

开发者反馈

Qwen3.7-Max发布后迅速在全球引发反响。大量独立开发者、AI创作者及企业用户第一时间分享测评结果，评价其“长程自主执行能力令人印象深刻”，是“真正能把事情做完的智能体基座模型”。有AI机构在相同提示词下横评Qwen3.7-Max、Claude-4.7与GPT-5.5，发现千问3.7较上代性能提升幅度最大、推理成本最低，在输出速度和生成质量两个维度上相较其他模型均有明显优势。

本文参考来源：量子位

微信扫描下方的二维码阅读本文

Code Arena权威榜单：阿里千问3.7-Max编程能力全球第二

核心能力突破

开发者反馈

阿逸

发表回复取消回复

核心能力突破

开发者反馈

阿逸

相关文章

SpaceX招股书曝光：Anthropic三年450亿美元算力合同背后

Qwen3模型发布：性能、成本均优于DeepSeek R1，深度推理+快速响应混合模式

谷歌CEO皮查伊承认Gemini在Coding能力上落后

发表回复取消回复