胜率直逼人类大师，这套Agent揭开中国AI「玄学真相」文章

36kr 资讯2026-05-25NEWSzh作者: 新智元

摘要

【导读】没有信息泄漏的专业术数题库面前，Claude、GPT等主流模型集体「翻车」。但一个叫Tianfu Agent的系统，却一举将准确率提升至50%，逼近本届术数大赛人类Top20选手的53.5%平均水平。把当前最先进的通用大模型，放在中国传统术数专业选择题（四选一）面前，会发生什么？需要说明的是，评测对通用模型已经做了「让步」：所有基线模型的Prompt中都提供了预计算的盘面数据，避免引入计算幻觉，而是直接考察推理能力。 DestinyLinker研究团队基于术数大赛（HKJFMA主办，3069名选手参与）的官方题库的评测集基准Mingli-Bench，测试了当下主流大模型，技术报告和测试结果在x上获得了百万关注。 MingLi-Bench开源仓库：https://github.com/DestinyLinker/MingLi- Bench Tianfu Agent技术报告：https://destinylinker.github.io/MingLi-Bench/ 结果有点意外，这些模型在这套几乎没有信息泄漏的最新比赛选择题上，准确率清一色徘徊在23%到40%之间。注意，四选一选择题的随机猜测线就是25%。为了验证模型能力能否支撑专业术数推理，该团队研发了Tianfu Agent的系统，实现一整套针对中国传统术数领域harness工程系统—— 200多个原子工具、3大流派规则函数库、多Sub-Agent协作，以及一套贯穿全链路的置信度量化机制，一举达到了50%的截尾准确率，逼近本届赛事人类Top 20选手的平均水平53.5%。 Harness之路，编码智能体的经验还远远不够试案例使用了马斯克命盘，测试中的1971/12/30并非其真实生日，因为他出生于南半球，需对其生辰进行节气转换 Claude Code、Cursor这些工具在复杂工程任务中表现良好，不是因为模型本身变强了，而是它被放进了一个领域专用的工具环境里，有文件I/O，有终端，有测试反馈。

胜率直逼人类大师，这套Agent揭开中国AI「玄学真相」文章

摘要

相关事件

相关公司查看全部 (1)

相关人物查看全部 (1)

相关产品查看全部 (6)

相关技术

胜率直逼人类大师，这套Agent揭开中国AI「玄学真相」 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物查看全部 (1)

相关产品查看全部 (6)

相关技术

胜率直逼人类大师，这套Agent揭开中国AI「玄学真相」文章