刚刚,Claude Opus 4.8来了,两个史上首次改写历史 文章

36kr 资讯2026-05-28NEWSzh作者: 新智元

摘要

猝不及防,Anthropic深夜杀回来了! 就在刚刚,Claude Opus 4.8正式登场,一举夺回全球AI王座。 而且价格还一分没涨,跟上一代一模一样。 无论是编程、人类最后考试(HLE),还是在智能体、计算机使用任务中,Opus 4.8几乎无可匹敌。 在衡量真实世界Agent能力的硬核榜单GDPval-AA上,Opus 4.8拿下了1890 Elo,断层第一。 比上一代Opus 4.7高137分,比GPT-5.5高121分。换算成对战胜率,赢面高达67%。 不仅如此,完成同样的任务,要比4.7少用15%的步骤,少输出35%的token。 可谓是,又快,又强,又便宜。 知名博主Mark Kretschmann一句话点破它的来头——Opus 4.8可能就是蒸馏的Mythos。 更重磅的是,这个最强的Claude Mythos,几周内就会上线。 Opus 4.8,两个0%改写历史 跑分之外,Anthropic这次反复强调的,就俩字,诚实。 用过LLM的人应该都体验过,写完一段代码之后,AI拍着胸脯告诉你「搞定了,没问题」,但实际上却埋着一堆雷。 被这种过度自信坑过的开发者,海了去了。 但到了Opus 4.8这里,「写完有缺陷代码却闷不吭声」的概率,比4.7低了差不多4倍! 下面这张图中,右边是「谎报率」,衡量模型在数据处理有缺陷时装作没事的频率。 Opus 4.5是0.40,Opus 4.7是0.25,Opus 4.8是0.00。 没有小数点后面的零头,就是0。 Opus 4.8是第一个在此评估中拿到满分的模型,它从不汇报虚假数字。 另一张图是「偷懒调查率」。 之前的模型遇到需要追查的问题时,经常敷衍了事给个错误答案。 Opus 4.7有25%的概率偷懒,而Opus 4.8依然是0%。 两个0%,两个历史首次。 这不是什么抽象的对齐指标。Anthropic官博放了一段视频,把这件事讲得很具体。 一个开发者用Claude Code + Opus 4.8在迁移代码,出门放风筝去了,Claude在后台自己跑。 跑到一半,代码提交被服务器拒绝了,原因是同事在这期间也提交了一个紧急修复。