Anthropic今日正式发布其旗舰级大语言模型Claude Opus 4.8,作为Opus 4.7的升级版本。该模型在维持原有定价不变的基础上,引入了价格显著降低的“Fast模式”,并新增了一项能够让模型并行生成数百个子代理、处理代码库级规模任务的功能。新模型已同步登陆Anthropic旗下所有平台,包括claude.ai、Claude Code、API及Cowork,开发者可通过“claude-opus-4-8”模型标识符进行调用。
在常规模式下,Claude Opus 4.8的API定价与前任保持一致:输入token每百万个5美元(约合人民币36元),输出token每百万个25美元(约合人民币180元)。在领先的前沿模型中,Opus 4.8常规模式的价格仍属较高水平,但低于主要竞争对手OpenAI的GPT-5.5常规版本。
此次发布的重点在于Fast模式的定价大幅下调。Fast模式下,模型生成token的速度约为常规模式的2.5倍,而价格则从Opus 4.7 Fast模式的每百万输入token 30美元(约216元)、每百万输出token 150美元(约1080元)降至Opus 4.8 Fast模式的10美元(约72元)和50美元(约360元),降幅达到3倍。这一价格调整使高吞吐推理对延迟敏感的生产工作负载变得在成本上切实可行。

Fast模式目前已直接在Claude Code中通过“/fast”命令使用,API访问则需加入等待名单,登记地址为claude.com/fast-mode。该模式面向对延迟和吞吐量有较高要求的开发场景,此前Opus 4.7 Fast模式的高昂定价限制了其大规模部署,此次降价有望吸引更多开发者在生产环境中尝试。
除定价调整外,Claude Opus 4.8还引入了一项并行子代理功能:模型能够自动创建并管理数百个并行运行的子代理,用于协作完成代码库级别的复杂任务。这类似于将一个大型软件项目拆解为多个可并行处理的子模块,每个子代理独立执行特定子任务,从而提升整体开发效率。该功能对于大型开源项目的维护、企业代码库重构等场景具有实际意义。
性能基准测试:增量提升但多项领先
在基准测试方面,Claude Opus 4.8的进步属于增量式升级。根据Anthropic公布的官方数据,在SWE-bench Verified(软件工程领域权威基准,用于评估模型解决真实GitHub issue的能力)上,Opus 4.8取得了88.6%的通过率,高于Opus 4.7的87.6%。在难度更高、更贴近复杂工程场景的SWE-bench Pro上,Opus 4.8得分69.2%,相比前代的64.3%提升了近5个百分点。终端任务基准Terminal-Bench 2.1上,Opus 4.8的成绩为74.6%,同样优于Opus 4.7的66.1%。
Anthropic将此次升级描述为“在前代基础上的适度但切实的改进”。从数据看,SWE-bench Pro和Terminal-Bench的提升幅度较为明显,体现了在复杂编程和命令行操作场景下的优化。此外,在知识工作、代码问题修复、自主工具调用和长上下文处理等至少12项基准测试中,Opus 4.8的成绩超越了GPT-5.5常规版本。GPT-5.5仅在终端/命令行工作流上表现更优,在网页浏览和研究生级别科学问题上两者基本持平。
在Anthropic内部的模型能力阶梯中,Opus 4.8被定位在Opus 4.7与更强大的Claude Mythos Preview之间。Mythos Preview是Anthropic当前能力最强的模型,但仅通过Project Glasswing项目向极少数组织提供,且限定于网络安全领域。Anthropic表示,计划在未来将Mythos级别的模型能力带给所有客户。这意味着Opus 4.8是目前普通开发者能够获得的最高级别模型,同时其性能已接近尚未大规模开放的Mythos。
总体来看,Claude Opus 4.8的发布延续了Anthropic在旗舰模型上的竞争策略:保持常规模式定价不变的同时,通过Fast模式的大幅降价吸引更多对成本敏感的开发者投入生产应用;在编码、工具调用等自主任务基准上保持对竞对的领先;并通过并行子代理等新功能扩展模型的应用范围。尽管本次模型升级在基准分数上提升有限,但定价与功能层面的调整使得它在实际部署中更具备吸引力。
本文参考来源:VentureBeat
微信扫描下方的二维码阅读本文


