技术客厅第一期:用遍所有Benchmark还不够用?恭喜你,该自己出题了 文章

36kr 文章2026-06-18NEWSzh作者: 星连资本

详细信息

来源站点
36kr 文章
作者
星连资本
文章类型
NEWS
语言
zh
发布日期
2026-06-18

摘要

技术客厅核心洞察 如果你通过调研,发现已有的Benchmark却依然无法满足你的需求时。恭喜你,你已经站在了设计者的起跑线上了。 2026年5月24日,由圆木智能发起、华清普智AI孵化器主办的「技术客厅」第一期活动于清华大学东南门创新大厦顺利举行。本期活动邀请到北邮计算机硕士刘文豪,围绕Agent Benchmark的现状与挑战,从设计者的角度展开深度分享。以下是这场「技术客厅」中值得反复咀嚼的核心洞察。 01  现状判断:“使用者”向“设计者”的被迫转型 Agent能力边界在快速扩张,但评估体系正在拖后腿,“使用者”被迫转型为“设计者”。 Benchmark进入井喷发展阶段,“使用者”到“设计者”的被迫转型。当前Agent Benchmark处于井喷阶段,无论是论文数量还是类型都在不断增加。其原因在于Agent能力的进化拓宽了能力边界,同时带来了大量未被清晰定义的corner case。当现有Benchmark无法满足使用者需求时,使用者只能亲自下场成为Benchmark的设计者。 两种视角,两种截然不同的问题意识。作为使用者需要关注的问题是:我要解决的任务类型是什么?我想评估Agent的哪项能力?我的运行环境是什么样的?而作为设计者则需要回答:什么叫“有意义的难”?给Agent输出个Hello World大部分都能做到,难度的边界该怎么划?怎么让完成信号可被自动、公平地验证?怎么保证Agent无法走捷径达到目的?从“使用者”向“设计者”,变的不只是身份,是要回答的问题本质上变了。 02 评估标准:229道题,为什么只留下89道 Terminal-Bench 2.0提交了229个任务,最终仅收录89个,接纳率不足 50%。这道"淘汰门"背后,是一套严苛的多轮审核机制:可解性检查、语言模型自动审查、评阅者协作复核、模型实跑测试甚至是对抗性检测。 好任务的三个检验标准。刘文豪将Benchmark质量标准归结为三点:明确性、可解决性与诚实性。明确性要求所有运行单元可被调用与检查,最终容器处于可验证的结束状态;可解决性要求提供多个不同场景的测试案例,确保agent提供的方案与参考答案一致;诚实性则是防止Agent“走后门”,例如隐藏后续数据以杜绝提前泄题。 一道优质任务长什么样。