胜率直逼人类大师,这套Agent揭开中国AI「玄学真相」 文章

36kr 资讯2026-05-25NEWSzh作者: 新智元

摘要

【导读】没有信息泄漏的专业术数题库面前,Claude、GPT等主流模型集体「翻车」。但一个叫Tianfu Agent的系统,却一举将准确率提升至50%,逼近本届术数大赛人类Top20选手的53.5%平均水平。 把当前最先进的通用大模型,放在中国传统术数专业选择题(四选一)面前,会发生什么? 需要说明的是,评测对通用模型已经做了「让步」:所有基线模型的Prompt中都提供了预计算的盘面数据,避免引入计算幻觉,而是直接考察推理能力。 DestinyLinker研究团队基于术数大赛(HKJFMA主办,3069名选手参与)的官方题库的评测集基准Mingli-Bench,测试了当下主流大模型,技术报告和测试结果在x上获得了百万关注。 MingLi-Bench开源仓库:https://github.com/DestinyLinker/MingLi- Bench Tianfu Agent技术报告:https://destinylinker.github.io/MingLi-Bench/ 结果有点意外,这些模型在这套几乎没有信息泄漏的最新比赛选择题上,准确率清一色徘徊在23%到40%之间。 注意,四选一选择题的随机猜测线就是25%。 为了验证模型能力能否支撑专业术数推理,该团队研发了Tianfu Agent的系统,实现一整套针对中国传统术数领域harness工程系统—— 200多个原子工具、3大流派规则函数库、多Sub-Agent协作,以及一套贯穿全链路的置信度量化机制,一举达到了50%的截尾准确率,逼近本届赛事人类Top 20选手的平均水平53.5%。 Harness之路,编码智能体的经验还远远不够 试案例使用了马斯克命盘,测试中的1971/12/30并非其真实生日,因为他出生于南半球,需对其生辰进行节气转换 Claude Code、Cursor这些工具在复杂工程任务中表现良好,不是因为模型本身变强了,而是它被放进了一个领域专用的工具环境里,有文件I/O,有终端,有测试反馈。

相关事件

暂无数据

相关公司查看全部 (1)

D
DestinyLinkerRESEARCH_INSTITUTE

相关技术

暂无数据