Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想 文章

36kr 资讯2026-05-25NEWSzh作者: 机器之心

摘要

想象一个真实的工作日:项目经理要更新项目状态,财务人员要整理客户账单,医疗管理员要核对预约和保险信息。 这些并不是高级专家任务,很多时候,一个认真一点的实习生照着流程也能完成。 但对今天的 AI Agent 来说,这些 “日常工作” 却远没有看起来那么简单。 它需要理解业务目标、跨应用查找信息、保持状态一致,还要在几十甚至上百步操作后,把所有细节正确落到系统里。 这也是SaaS-Bench想揭示的现实:Agent 不只是要会点按钮、填表格,更要能完成真实办公室里的长流程工作。 如果连实习生日常能做的任务都无法稳定完成,那我们就需要重新审视:距离真正可用的 Agent,还有多远。 Blog 链接:https://unipat.ai/blog/SaaS-Bench GitHub 链接:https://github.com/UniPat-AI/SaaS-Bench 论文链接:https://arxiv.org/abs/2605.15777 Computer-Use Agent 的「奇点」没有来,现实的冷水先泼下来了。 过去一年,各家 GUI Agent 争先恐后地宣称能替人类干活。Benchmark 成绩一路飙升,投资人兴奋,媒体狂欢,「全自动办公」似乎就在眼前。 但 UniPat AI 刚刚用一组数据证明:这一切,都建立在沙子上! Leaderboard 23 个真系统,106 个任务,一场残酷的实战考试 现有的 Agent 评测,说白了就是:仿真环境、简单任务、最多几十步搞定。 跟真实工作完全是两回事。 真实办公长什么样?一个医疗管理员写完 SOAP 病历→填病例上报→生成正式文档。一个财务收到报销申请→审批→打款→记账。跨好几个系统,步骤动辄几百步。 SaaS-Bench 的思路很暴力:直接把真系统搬进 Docker,让 Agent 在真实的前后端逻辑、数据库状态和业务约束中干活。 SaaS-Bench 任务 —— 真实工作场景任务 SaaS-Bench 精心挑选了 23 个开源 SaaS (Software-as-a-Service)系统,全部通过 Docker 本地部署,保留了完整的前后端逻辑、数据库状态和业务约束。覆盖六个专业领域:…

摘要可能不完整,可查看原文

相关事件

暂无数据

相关公司查看全部 (1)

U
UniPat AICOMPANY

相关人物

暂无数据