摘要
就在刚刚,Claude Opus 4.8(High)拿下了这张榜单的榜首。 RHAE得分1.5%,是第二名的3倍! 但代价是,跑一次评测要烧掉整整1万美元。 要是放到别的AI测试里,1.5%这个成绩只能用惨不忍睹来形容。 但在ARC-AGI-3上,它是有史以来的最高分,而且没有之一。 此前的纪录保持者Opus 4.6(Max),得分是0.5%。 GPT-5.5更惨,只有0.4%。连Opus 4.8的零头都不到。 完整榜单是这样的(截至6月1日): Opus 4.8(High),1.5%,1万美元 Opus 4.6(Max),0.5%,8900美元 GPT-5.5(High),0.4%,1万美元 Gemini 3.1 Pro(Preview),0.4%,2200美元 Opus 4.7(High),0.2%,1万美元 GPT-5.4(High),0.2%,5200美元 Grok 4.20(Beta Reasoning),0.1%,3800美元 Opus 4.8刷榜,最难考试新SOTA 最高分才1.5%。这张试卷凭什么这么难? 虽然之前的ARC-AGI-1和2也不简单,但依然是有标准答案的填空题。 而ARC-AGI-3是把你扔进一个从来没见过的游戏里。没有任何说明,没有任何提示。 自己探索,自己猜规则,自己推断胜利条件,自己规划路线。 测试一发布,所有前沿AI的得分直接归零。 说白了,ARC-AGI-3考的就是Agent能力。而Opus 4.8这次升级的重心,恰好全押在了这上面。 在大多数传统benchmark上,它确实只是在Opus 4.7的基础上小幅涨分。 SWE-bench Verified从87.6%到88.6%,GPQA Diamond持平在93.6%。 但在所有和Agent相关的评测上,画风直接突变。 SWE-bench Pro(更难的代码修复测试)从64.3%直接涨到69.2%,领先GPT-5.5的58.6%超过10个百分点。 Online-Mind2Web(浏览器操作测试)拿下84%,同时超过Opus 4.7和GPT-5.5。 Terminal-Bench Hard一下涨了6.