Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍文章

36kr 资讯2026-06-02NEWSzh作者: 新智元

摘要

就在刚刚，Claude Opus 4.8（High）拿下了这张榜单的榜首。 RHAE得分1.5%，是第二名的3倍！但代价是，跑一次评测要烧掉整整1万美元。要是放到别的AI测试里，1.5%这个成绩只能用惨不忍睹来形容。但在ARC-AGI-3上，它是有史以来的最高分，而且没有之一。此前的纪录保持者Opus 4.6（Max），得分是0.5%。 GPT-5.5更惨，只有0.4%。连Opus 4.8的零头都不到。完整榜单是这样的（截至6月1日）: Opus 4.8（High），1.5%，1万美元 Opus 4.6（Max），0.5%，8900美元 GPT-5.5（High），0.4%，1万美元 Gemini 3.1 Pro（Preview），0.4%，2200美元 Opus 4.7（High），0.2%，1万美元 GPT-5.4（High），0.2%，5200美元 Grok 4.20（Beta Reasoning），0.1%，3800美元 Opus 4.8刷榜，最难考试新SOTA 最高分才1.5%。这张试卷凭什么这么难？虽然之前的ARC-AGI-1和2也不简单，但依然是有标准答案的填空题。  而ARC-AGI-3是把你扔进一个从来没见过的游戏里。没有任何说明，没有任何提示。  自己探索，自己猜规则，自己推断胜利条件，自己规划路线。  测试一发布，所有前沿AI的得分直接归零。  说白了，ARC-AGI-3考的就是Agent能力。而Opus 4.8这次升级的重心，恰好全押在了这上面。在大多数传统benchmark上，它确实只是在Opus 4.7的基础上小幅涨分。 SWE-bench Verified从87.6%到88.6%，GPQA Diamond持平在93.6%。但在所有和Agent相关的评测上，画风直接突变。 SWE-bench Pro（更难的代码修复测试）从64.3%直接涨到69.2%，领先GPT-5.5的58.6%超过10个百分点。 Online-Mind2Web（浏览器操作测试）拿下84%，同时超过Opus 4.7和GPT-5.5。 Terminal-Bench Hard一下涨了6.

Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (35)

相关技术查看全部 (7)

Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍 文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (35)

相关技术查看全部 (7)

Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍文章