Code Arena权威榜单:阿里千问3.7-Max编程能力全球第二

全球权威编程榜单Code Arena公布最新排名,阿里Qwen3.7-Max以1541分位列第二,超越GPT-5.5等模型,成为唯一突破1540分的国产大模型。榜单通过真实Web应用盲测产生,千问3.7在编程、Agent等能力上表现突出。

5月26日凌晨,全球权威第三方编程榜单Code Arena发布最新排名。阿里旗下旗舰模型Qwen3.7-Max获得1541分,位居全球第二,仅次于Claude系列,并超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一众模型。这标志着千问3.7在代码理解与生成领域跻身全球编程模型第一梯队。

\"Code
Code Arena榜单显示,凭借Qwen3.7-Max,阿里位列全球第二

Code Arena由知名第三方大模型盲测平台LMArena推出。与评估代码片段或传统算法题的常规基准测试不同,Code Arena要求模型从零生成完整的、可交互的Web应用程序。开发者出题后,由用户对匿名模型的生成效果进行两两盲测投票,以此综合排名。因此,该榜单被视为当前全球最具公信力的AI编程能力评测之一。

核心能力突破

据榜单显示,千问3.7模型编程能力位居前四,打破了此前由Claude-Opus-4.7和4.6长期占据的格局。Qwen3.7-Max也是目前唯一得分突破1540分的国产大模型。

据介绍,Qwen3.7-Max专为Agent智能体场景设计,在编程、智能体、长程任务等核心能力上实现大幅突破。该模型可在数小时内独立完成原本需专业团队耗时2周的复杂项目端到端交付,大幅提升办公自动化和企业级生产力。其长程任务能力可支持持续运行35小时,累计执行超1000次工具调用,甚至能自我编程优化芯片内核。

开发者反馈

Qwen3.7-Max发布后迅速在全球引发反响。大量独立开发者、AI创作者及企业用户第一时间分享测评结果,评价其“长程自主执行能力令人印象深刻”,是“真正能把事情做完的智能体基座模型”。有AI机构在相同提示词下横评Qwen3.7-Max、Claude-4.7与GPT-5.5,发现千问3.7较上代性能提升幅度最大、推理成本最低,在输出速度和生成质量两个维度上相较其他模型均有明显优势。

本文参考来源:量子位



微信扫描下方的二维码阅读本文

Code Arena权威榜单:阿里千问3.7-Max编程能力全球第二 - Agent智能体, AI大模型, AI编程能力, Code Arena, Qwen3.7-Max, 长程任务, 阿里巴巴

发表回复