Claude通过率不到4% SaaS-Bench撕碎全自动办公幻想

UniPat AI 发布了一项名为 SaaS-Bench 的评测，结果给火热的 GUI Agent 赛道浇了一盆冷水。在 23 个真实办公 SaaS 系统构成的 106 个任务中，包括 Claude 在内的主流大模型完全通过率最高仅 3.8%。这一数字意味着，当前 AI Agent 距离真正的“全自动办公”仍有极大距离。

过去一年间，各家宣称能替人类操作电脑的 Agent 产品层出不穷，benchmark 成绩持续攀升，从科技媒体到投资圈，“Computer-Use”“全自动办公”的概念被反复热炒。但 UniPat AI 的这次评测试图揭示一个更本质的问题：如果连办公室实习生都能完成的日常长流程任务——跨系统查询、编辑、提交、验证——Agent 都无法稳定执行，那么这些亮眼的 Benchmark 成绩就很可能建立在简化测试环境之上。

SaaS-Bench：在真实系统中检验 Agent

与多数 Agent 评测使用仿真环境、简单网页、数十步内完成的短任务不同，SaaS-Bench 采用了更“暴力”的设计思路：将 23 个真实开源的 SaaS（Software-as-a-Service）系统通过 Docker 本地部署，保留完整的前后端逻辑、数据库状态和业务约束，并在每个软件中预填充真实的业务数据——用户、项目、订单、文件等实体记录。Agent 进入的不是空白的测试页面，而是一个有历史数据、干扰项和跨系统关联的真实工作环境。

SaaS-Bench 六大领域及 23 个开源系统分布图 — SaaS-Bench 覆盖六大专业领域，包含 23 个真实开源 SaaS 系统

这 23 个系统覆盖六个专业领域：软件研发（OpenProject、Baserow、Code-Server、Metabase）、业务财务（Twenty CRM、BigCapital、HRMS、Pretix）、医疗管理（OpenEMR、OpnForm、OnlyOffice）、团队协作（SiYuan、Roundcube、Mattermost、ownCloud）、农业供应链（FarmOS、Grocy、Recipya、E-Label）以及独立媒体（PhotoPrism、MediaCMS、BookLore、Watcharr）。106 个任务中，93.4% 需要涉及至少两个应用，三应用任务占了一半（53 个）。纯文本任务 74 个，涉及多模态理解的 32 个。以 Claude Opus 4.6 的执行轨迹估算，97.3% 的文本任务操作步数超过 100 步，最长轨迹达 300 步以上。

评测采用两个指标：完全通过分数（Pass@1）要求全部检查点通过才算 1，否则为 0；检查点分数则按权重计算部分检查点的完成比例。两个数字之间的落差恰恰暴露了 Agent 的核心问题。

最高完全通过率 3.8%，长流程几乎是“鬼门关”

SaaS-Bench 给出的结果极为残酷。在所有模型的测试中，完全通过率（Pass@1）最高仅为 3.8%。即便是同一个任务独立运行 3 次（Pass@3），通过率平均也只提升约 8 个百分点。以 Claude Sonnet 4.6 为例，它在多模态任务上的 Pass@1 为 33.9%，Pass@3 跳到了 52.1%（+18.2 pp）——说明它并非完全不能完成任务，而是每次执行的路径高度不稳定，环境随机性并不存在（初始状态完全相同），但模型在某个决策点的微小差异就导致后续轨迹完全分叉。

进一步分析发现，得分与任务复杂度呈明显负相关。在涉及 1 个应用的任务中平均分为 53%，上升到 4 个应用时降至 20%；检查点个数从 6 个增加到 18 个以上时，平均分从 65% 降至 27%。跨应用 + 长轨迹 + 细粒度验证的组合，成为 Agent 最难攻克的组合。

即便每个检查点的独立通过率高达 95%，面对 12 个检查点，全部通过的概率也只有 54%，而 SaaS-Bench 的平均检查点数远超 12。这是一个数学上的必然：误差在长流程中被不断累积。

四种结构性失败：从误差累积到幻觉闭环

SaaS-Bench 的价值不在于分数本身，而在于它清晰地暴露了 Agent 在真实环境中的四种结构性失败模式。

“越往后越做不对”

没有一个模型能在后半段维持住前期表现。任务的执行轨迹是一条不可逆的下降曲线：每一步的累积误差都在降低正确完成后续步骤的概率，越到后期，模型越容易偏离正确路径。

“一步错，步步错”

一个典型案例来自客户创建任务。任务要求创建客户“Arcturus Digital”，但 Agent 同时填写了联系人姓名和公司名，触发了系统的个人客户逻辑，实际创建成了客户“Elena Vasquez”。此后关联的 10 张发票、付款记录、账户对账全部落到了错误客户名称下。核心检查点的权重仅 3%，却导致下游 30% 的权重损失——早期一个看似微小的错误，在后端系统完成了不可逆的级联。

“做完不检查”

Claude Opus 4.6 在某个财务任务的第 124 步识别出了日期错误（2026-03-19 写入成了 2026-03-20），它执行了修改操作，但并未验证修改是否同步到了后续子任务。在第 210 步提交时，汇报文本写的是“账单日期 2026-03-20，已修复”，而系统中账单日期仍是错误的。Agent 在意图层面认为成功，验证器却给出了零分。这种“虚假执行”——模型以为自己完成了操作，但系统状态并未真正改变——在长流程中频繁出现。

路径依赖与轨迹漂移

在同样初始状态下，模型因为某个随机采样的差异而选择不同操作入口，后续整个轨迹完全分岔。高额 pass@3 提升率背后，是模型在每一步决策上缺乏鲁棒性。当任务超过 100 步，这种路径漂移几乎无法避免。

SaaS-Bench 的结果并非为了否定 Computer-Use 的方向，而是提出了一个更紧迫的问题：现有的 Agent 能力评测体系与真实办公需求之间存在巨大鸿沟。在没有解决长程误差累积、跨系统状态同步和执行结果自主验证这三个核心问题之前，“全自动办公”仍是一个需要被审视的幻想。

UniPat AI 表示，该 Benchmarks 将开源公开，供研究社区进一步分析。对于整个 AI Agent 领域而言，这组冰冷的数据或许比任何一个华丽的 demo 都更有价值——它指出了当前技术路线的真正瓶颈在哪里。

本文参考来源：量子位

微信扫描下方的二维码阅读本文

Claude在SaaS-Bench通过率不足4%：Computer-Use自动化面临现实瓶颈

SaaS-Bench：在真实系统中检验 Agent

最高完全通过率 3.8%，长流程几乎是“鬼门关”