Claude不到4%，全军覆没，一场大考撕碎Agent「全自动办公」幻想文章

36kr 资讯2026-05-25NEWSzh作者: 新智元

摘要

【导读】许多实习生能轻松完成的任务，有时对于AI来说却是一场严酷大考。人类距离真正可用的Agent，还有多远？一份全新SaaS-Bench实战考卷，已经给出了答案。 Computer-Use Agent的「奇点」没有来，现实的冷水先泼下来了。过去一年，各家GUI Agent争先恐后地宣称能替人类干活。Benchmark成绩一路飙升，投资人兴奋，媒体狂欢，「全自动办公」似乎就在眼前。但UniPat AI刚刚用一组数据证明：这一切，都建立在沙子上！ Leaderboard 23个真系统，106个任务，一场残酷的实战考试现有的Agent评测，说白了就是：仿真环境、简单任务、最多几十步搞定。跟真实工作完全是两回事。真实办公长什么样？一个医疗管理员写完SOAP病历→填病例上报→生成正式文档。一个财务收到报销申请→审批→打款→记账。跨好几个系统，步骤动辄几百步。 SaaS-Bench的思路很暴力：直接把真系统搬进Docker，让Agent在真实的前后端逻辑、数据库状态和业务约束中干活。 SaaS-Bench任务——真实工作场景任务 SaaS-Bench精心挑选了23个开源SaaS（Software-as-a-Service）系统，全部通过Docker本地部署，保留了完整的前后端逻辑、数据库状态和业务约束。覆盖六个专业领域：软件研发：OpenProject、Baserow、Code-Server、Metabase 业务财务：Twenty CRM、BigCapital、HRMS、Pretix 医疗管理：OpenEMR、OpnForm、OnlyOffice 团队协作：SiYuan、Roundcube、Mattermost、ownCloud 农业供应链：FarmOS、Grocy、Recipya、E-Label 独立媒体：PhotoPrism、MediaCMS、BookLore、Watcharr 更重要的是，这些系统不是「空壳网页」：每个软件里都填充了真实业务的数据，包括用户、项目、订单、文件等实体记录。 Agent进入的不是一个空白的测试页面，而是一个有历史数据、有干扰项、有跨系统关联的真实工作环境。任务模态、领域、app三层分布…

摘要可能不完整，可查看原文

Claude不到4%，全军覆没，一场大考撕碎Agent「全自动办公」幻想文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (24)

相关技术查看全部 (1)

Claude不到4%，全军覆没，一场大考撕碎Agent「全自动办公」幻想 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (24)

相关技术查看全部 (1)

Claude不到4%，全军覆没，一场大考撕碎Agent「全自动办公」幻想文章