Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想文章

36kr 资讯2026-05-25NEWSzh作者: 机器之心

摘要

想象一个真实的工作日：项目经理要更新项目状态，财务人员要整理客户账单，医疗管理员要核对预约和保险信息。这些并不是高级专家任务，很多时候，一个认真一点的实习生照着流程也能完成。但对今天的 AI Agent 来说，这些 “日常工作” 却远没有看起来那么简单。它需要理解业务目标、跨应用查找信息、保持状态一致，还要在几十甚至上百步操作后，把所有细节正确落到系统里。这也是SaaS-Bench想揭示的现实：Agent 不只是要会点按钮、填表格，更要能完成真实办公室里的长流程工作。如果连实习生日常能做的任务都无法稳定完成，那我们就需要重新审视：距离真正可用的 Agent，还有多远。 Blog 链接：https://unipat.ai/blog/SaaS-Bench GitHub 链接：https://github.com/UniPat-AI/SaaS-Bench 论文链接：https://arxiv.org/abs/2605.15777 Computer-Use Agent 的「奇点」没有来，现实的冷水先泼下来了。过去一年，各家 GUI Agent 争先恐后地宣称能替人类干活。Benchmark 成绩一路飙升，投资人兴奋，媒体狂欢，「全自动办公」似乎就在眼前。但 UniPat AI 刚刚用一组数据证明：这一切，都建立在沙子上！ Leaderboard 23 个真系统，106 个任务，一场残酷的实战考试现有的 Agent 评测，说白了就是：仿真环境、简单任务、最多几十步搞定。跟真实工作完全是两回事。真实办公长什么样？一个医疗管理员写完 SOAP 病历→填病例上报→生成正式文档。一个财务收到报销申请→审批→打款→记账。跨好几个系统，步骤动辄几百步。 SaaS-Bench 的思路很暴力：直接把真系统搬进 Docker，让 Agent 在真实的前后端逻辑、数据库状态和业务约束中干活。 SaaS-Bench 任务 —— 真实工作场景任务 SaaS-Bench 精心挑选了 23 个开源 SaaS (Software-as-a-Service)系统，全部通过 Docker 本地部署，保留了完整的前后端逻辑、数据库状态和业务约束。覆盖六个专业领域：…

摘要可能不完整，可查看原文

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (1)

相关技术查看全部 (1)

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (1)

相关技术查看全部 (1)

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想文章