Claude Sonnet 4.5:能持续工作30小时的赛博牛马,全球最强编程AI

2025年9月30日,Anthropic正式发布Claude Sonnet 4.5,这款被定义为“全球最强代码模型”“最擅长构建复杂智能体的模型”及“最会用电脑的人工智能”,在编码能力、长时任务执行、安全对齐等多维度实现突破性升级,重新定义AI在专业领域的生产力边界。

image

技术突破:编码能力登顶,续航超30小时

Claude Sonnet 4.5在权威编码基准SWE-bench Verified测试中以77.2%的成绩位居榜首,较前代Opus 4.1提升2.7个百分点;启用并行计算时更达82.0%,远超GPT-5(72.8%)、Gemini 2.5 Pro(67.2%)等竞品。其核心优势在于“全场景能力跃升”:在OSWorld计算机操作测试中,模型以61.4%的得分刷新纪录,较四个月前的Sonnet 4(42.2%)提升近20个百分点;在金融、医疗、法律、STEM等领域的专业推理测试中,胜率显著超越基准模型,AIME数学竞赛中借助工具实现100%准确率,无工具情况下仍达87%。

最引人注目的是其“耐力革命”——模型可在复杂多步骤任务中连续专注运行超30小时,远超前代Opus 4的7小时极限。例如,在构建类似Slack的聊天应用时,模型可一次性生成1.1万行代码,覆盖前端界面、后端逻辑、数据库交互全流程,并自主调试接口,实现从零到产品的完整闭环。这种“长跑式执行”能力,使开发者能够依赖AI完成从架构设计到部署的全流程工作。

工具链升级:开发者的“全能伙伴”

伴随模型发布,Anthropic同步推出开发者工具链的全面革新:

  • Claude Code 2.0:新增“检查点”功能,支持随时保存进度并一键回滚;终端界面升级,集成VS Code原生插件,实现代码补全、错误修复、跨文件调试等功能,效率提升40%;
  • API新特性:引入记忆工具(跨会话存储知识)与上下文编辑功能(自动清理陈旧信息),降低Token消耗84%,提升长时任务成功率;
  • Claude Agent SDK:开放底层智能体基础设施,支持自定义内存管理、权限控制及多智能体协作,开发者可基于相同技术栈构建企业级专用智能体;
  • 实验功能“Imagine with Claude” :限时向Max用户开放,支持实时动态生成软件界面,无需预设代码,通过自然语言交互即时创建UI、功能逻辑及数据交互,探索AI原生操作系统的交互范式。

安全与对齐:ASL-3级别的稳健防护

Claude Sonnet 4.5以AI Safety Level 3(ASL-3)框架发布,在安全性上实现质的飞跃。通过强化训练,模型减少谄媚、欺骗、权力寻求等不良行为,对提示注入攻击的防御能力显著提升。针对CBRN(化生放核)风险内容,分类器误报率较前代降低十倍,正常请求拒绝率从0.15%降至0.02%。系统卡(System Card)公开了可解释性技术验证的安全细节,确保透明度与可靠性。

定价与生态:加量不加价,开放共荣

模型定价保持与Sonnet 4一致:输入3美元/百万tokens,输出15美元/百万tokens,通过Claude API、Amazon Bedrock、Google Vertex AI等渠道即可调用。Anthropic同步开放Claude Agent SDK,将内部用于构建Claude Code的底层基础设施向开发者全面开放,降低AI智能体的开发门槛。

行业影响与未来展望

Claude Sonnet 4.5的发布,标志着AI从“对话助手”向“可靠工友”的转型。其在编码、智能体构建、计算机操作等领域的突破,不仅巩固了Anthropic在AI编程领域的领先地位,更推动行业向“长期、系统化执行”迈进。正如Anthropic联合创始人所言:“在公司内部,工程师们已不再写代码”——这一未来图景,正随着Claude Sonnet 4.5的落地而加速成为现实。

尽管自动生成的代码仍需人工监督以确保安全性和正确性,但Claude Sonnet 4.5在能力与安全之间的平衡探索,为AI的规模化应用提供了新的范式。随着更多开发者加入生态,AI驱动的复杂任务自动化,或将开启全新的生产力革命。

一叶
一叶

一个好奇的玩家,热爱生活,更热爱探索

文章: 2101

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注

玩亦可及