摘要
【导读】许多实习生能轻松完成的任务,有时对于AI来说却是一场严酷大考。人类距离真正可用的Agent,还有多远?一份全新SaaS-Bench实战考卷,已经给出了答案。 Computer-Use Agent的「奇点」没有来,现实的冷水先泼下来了。 过去一年,各家GUI Agent争先恐后地宣称能替人类干活。Benchmark成绩一路飙升,投资人兴奋,媒体狂欢,「全自动办公」似乎就在眼前。 但UniPat AI刚刚用一组数据证明:这一切,都建立在沙子上! Leaderboard 23个真系统,106个任务,一场残酷的实战考试 现有的Agent评测,说白了就是:仿真环境、简单任务、最多几十步搞定。 跟真实工作完全是两回事。 真实办公长什么样?一个医疗管理员写完SOAP病历→填病例上报→生成正式文档。一个财务收到报销申请→审批→打款→记账。 跨好几个系统,步骤动辄几百步。 SaaS-Bench的思路很暴力:直接把真系统搬进Docker,让Agent在真实的前后端逻辑、数据库状态和业务约束中干活。 SaaS-Bench任务——真实工作场景任务 SaaS-Bench精心挑选了23个开源SaaS(Software-as-a-Service)系统,全部通过Docker本地部署,保留了完整的前后端逻辑、数据库状态和业务约束。覆盖六个专业领域: 软件研发:OpenProject、Baserow、Code-Server、Metabase 业务财务:Twenty CRM、BigCapital、HRMS、Pretix 医疗管理:OpenEMR、OpnForm、OnlyOffice 团队协作:SiYuan、Roundcube、Mattermost、ownCloud 农业供应链:FarmOS、Grocy、Recipya、E-Label 独立媒体:PhotoPrism、MediaCMS、BookLore、Watcharr 更重要的是,这些系统不是「空壳网页」:每个软件里都填充了真实业务的数据,包括用户、项目、订单、文件等实体记录。 Agent进入的不是一个空白的测试页面,而是一个有历史数据、有干扰项、有跨系统关联的真实工作环境。 任务模态、领域、app三层分布…
摘要可能不完整,可查看原文