UniPat AI 发布了一项名为 SaaS-Bench 的评测,结果给火热的 GUI Agent 赛道浇了一盆冷水。在 23 个真实办公 SaaS 系统构成的 106 个任务中,包括 Claude 在内的主流大模型完全通过率最高仅 3.8%。这一数字意味着,当前 AI Agent 距离真正的“全自动办公”仍有极大距离。
过去一年间,各家宣称能替人类操作电脑的 Agent 产品层出不穷,benchmark 成绩持续攀升,从科技媒体到投资圈,“Computer-Use”“全自动办公”的概念被反复热炒。但 UniPat AI 的这次评测试图揭示一个更本质的问题:如果连办公室实习生都能完成的日常长流程任务——跨系统查询、编辑、提交、验证——Agent 都无法稳定执行,那么这些亮眼的 Benchmark 成绩就很可能建立在简化测试环境之上。
SaaS-Bench:在真实系统中检验 Agent
与多数 Agent 评测使用仿真环境、简单网页、数十步内完成的短任务不同,SaaS-Bench 采用了更“暴力”的设计思路:将 23 个真实开源的 SaaS(Software-as-a-Service)系统通过 Docker 本地部署,保留完整的前后端逻辑、数据库状态和业务约束,并在每个软件中预填充真实的业务数据——用户、项目、订单、文件等实体记录。Agent 进入的不是空白的测试页面,而是一个有历史数据、干扰项和跨系统关联的真实工作环境。

这 23 个系统覆盖六个专业领域:软件研发(OpenProject、Baserow、Code-Server、Metabase)、业务财务(Twenty CRM、BigCapital、HRMS、Pretix)、医疗管理(OpenEMR、OpnForm、OnlyOffice)、团队协作(SiYuan、Roundcube、Mattermost、ownCloud)、农业供应链(FarmOS、Grocy、Recipya、E-Label)以及独立媒体(PhotoPrism、MediaCMS、BookLore、Watcharr)。106 个任务中,93.4% 需要涉及至少两个应用,三应用任务占了一半(53 个)。纯文本任务 74 个,涉及多模态理解的 32 个。以 Claude Opus 4.6 的执行轨迹估算,97.3% 的文本任务操作步数超过 100 步,最长轨迹达 300 步以上。
评测采用两个指标:完全通过分数(Pass@1)要求全部检查点通过才算 1,否则为 0;检查点分数则按权重计算部分检查点的完成比例。两个数字之间的落差恰恰暴露了 Agent 的核心问题。
最高完全通过率 3.8%,长流程几乎是“鬼门关”
SaaS-Bench 给出的结果极为残酷。在所有模型的测试中,完全通过率(Pass@1)最高仅为 3.8%。即便是同一个任务独立运行 3 次(Pass@3),通过率平均也只提升约 8 个百分点。以 Claude Sonnet 4.6 为例,它在多模态任务上的 Pass@1 为 33.9%,Pass@3 跳到了 52.1%(+18.2 pp)——说明它并非完全不能完成任务,而是每次执行的路径高度不稳定,环境随机性并不存在(初始状态完全相同),但模型在某个决策点的微小差异就导致后续轨迹完全分叉。
进一步分析发现,得分与任务复杂度呈明显负相关。在涉及 1 个应用的任务中平均分为 53%,上升到 4 个应用时降至 20%;检查点个数从 6 个增加到 18 个以上时,平均分从 65% 降至 27%。跨应用 + 长轨迹 + 细粒度验证的组合,成为 Agent 最难攻克的组合。
即便每个检查点的独立通过率高达 95%,面对 12 个检查点,全部通过的概率也只有 54%,而 SaaS-Bench 的平均检查点数远超 12。这是一个数学上的必然:误差在长流程中被不断累积。
四种结构性失败:从误差累积到幻觉闭环
SaaS-Bench 的价值不在于分数本身,而在于它清晰地暴露了 Agent 在真实环境中的四种结构性失败模式。
“越往后越做不对”
没有一个模型能在后半段维持住前期表现。任务的执行轨迹是一条不可逆的下降曲线:每一步的累积误差都在降低正确完成后续步骤的概率,越到后期,模型越容易偏离正确路径。
“一步错,步步错”
一个典型案例来自客户创建任务。任务要求创建客户“Arcturus Digital”,但 Agent 同时填写了联系人姓名和公司名,触发了系统的个人客户逻辑,实际创建成了客户“Elena Vasquez”。此后关联的 10 张发票、付款记录、账户对账全部落到了错误客户名称下。核心检查点的权重仅 3%,却导致下游 30% 的权重损失——早期一个看似微小的错误,在后端系统完成了不可逆的级联。
“做完不检查”
Claude Opus 4.6 在某个财务任务的第 124 步识别出了日期错误(2026-03-19 写入成了 2026-03-20),它执行了修改操作,但并未验证修改是否同步到了后续子任务。在第 210 步提交时,汇报文本写的是“账单日期 2026-03-20,已修复”,而系统中账单日期仍是错误的。Agent 在意图层面认为成功,验证器却给出了零分。这种“虚假执行”——模型以为自己完成了操作,但系统状态并未真正改变——在长流程中频繁出现。
路径依赖与轨迹漂移
在同样初始状态下,模型因为某个随机采样的差异而选择不同操作入口,后续整个轨迹完全分岔。高额 pass@3 提升率背后,是模型在每一步决策上缺乏鲁棒性。当任务超过 100 步,这种路径漂移几乎无法避免。
SaaS-Bench 的结果并非为了否定 Computer-Use 的方向,而是提出了一个更紧迫的问题:现有的 Agent 能力评测体系与真实办公需求之间存在巨大鸿沟。在没有解决长程误差累积、跨系统状态同步和执行结果自主验证这三个核心问题之前,“全自动办公”仍是一个需要被审视的幻想。
UniPat AI 表示,该 Benchmarks 将开源公开,供研究社区进一步分析。对于整个 AI Agent 领域而言,这组冰冷的数据或许比任何一个华丽的 demo 都更有价值——它指出了当前技术路线的真正瓶颈在哪里。
本文参考来源:量子位
微信扫描下方的二维码阅读本文



