技术客厅第一期：用遍所有Benchmark还不够用？恭喜你，该自己出题了文章

36kr 文章2026-06-18NEWSzh作者: 星连资本

详细信息

来源站点: 36kr 文章
作者: 星连资本
文章类型: NEWS
语言: zh
发布日期: 2026-06-18

摘要

技术客厅核心洞察如果你通过调研，发现已有的Benchmark却依然无法满足你的需求时。恭喜你，你已经站在了设计者的起跑线上了。 2026年5月24日，由圆木智能发起、华清普智AI孵化器主办的「技术客厅」第一期活动于清华大学东南门创新大厦顺利举行。本期活动邀请到北邮计算机硕士刘文豪，围绕Agent Benchmark的现状与挑战，从设计者的角度展开深度分享。以下是这场「技术客厅」中值得反复咀嚼的核心洞察。 01  现状判断：“使用者”向“设计者”的被迫转型 Agent能力边界在快速扩张，但评估体系正在拖后腿，“使用者”被迫转型为“设计者”。 Benchmark进入井喷发展阶段，“使用者”到“设计者”的被迫转型。当前Agent Benchmark处于井喷阶段，无论是论文数量还是类型都在不断增加。其原因在于Agent能力的进化拓宽了能力边界，同时带来了大量未被清晰定义的corner case。当现有Benchmark无法满足使用者需求时，使用者只能亲自下场成为Benchmark的设计者。两种视角，两种截然不同的问题意识。作为使用者需要关注的问题是：我要解决的任务类型是什么？我想评估Agent的哪项能力？我的运行环境是什么样的？而作为设计者则需要回答：什么叫“有意义的难”？给Agent输出个Hello World大部分都能做到，难度的边界该怎么划？怎么让完成信号可被自动、公平地验证？怎么保证Agent无法走捷径达到目的？从“使用者”向“设计者”，变的不只是身份，是要回答的问题本质上变了。 02 评估标准：229道题，为什么只留下89道 Terminal-Bench 2.0提交了229个任务，最终仅收录89个，接纳率不足 50%。这道"淘汰门"背后，是一套严苛的多轮审核机制：可解性检查、语言模型自动审查、评阅者协作复核、模型实跑测试甚至是对抗性检测。好任务的三个检验标准。刘文豪将Benchmark质量标准归结为三点：明确性、可解决性与诚实性。明确性要求所有运行单元可被调用与检查，最终容器处于可验证的结束状态；可解决性要求提供多个不同场景的测试案例，确保agent提供的方案与参考答案一致；诚实性则是防止Agent“走后门”，例如隐藏后续数据以杜绝提前泄题。一道优质任务长什么样。

技术客厅第一期：用遍所有Benchmark还不够用？恭喜你，该自己出题了文章

详细信息

摘要

相关事件

相关公司查看全部 (5)

相关人物

相关产品查看全部 (6)

相关技术查看全部 (1)

技术客厅第一期：用遍所有Benchmark还不够用？恭喜你，该自己出题了 文章

详细信息

摘要

相关事件

相关公司查看全部 (5)

相关人物

相关产品查看全部 (6)

相关技术查看全部 (1)

技术客厅第一期：用遍所有Benchmark还不够用？恭喜你，该自己出题了文章