刚刚，Claude Opus 4.8来了，两个史上首次改写历史文章

36kr 资讯2026-05-28NEWSzh作者: 新智元

摘要

猝不及防，Anthropic深夜杀回来了！就在刚刚，Claude Opus 4.8正式登场，一举夺回全球AI王座。而且价格还一分没涨，跟上一代一模一样。无论是编程、人类最后考试（HLE），还是在智能体、计算机使用任务中，Opus 4.8几乎无可匹敌。在衡量真实世界Agent能力的硬核榜单GDPval-AA上，Opus 4.8拿下了1890 Elo，断层第一。比上一代Opus 4.7高137分，比GPT-5.5高121分。换算成对战胜率，赢面高达67%。不仅如此，完成同样的任务，要比4.7少用15%的步骤，少输出35%的token。可谓是，又快，又强，又便宜。知名博主Mark Kretschmann一句话点破它的来头——Opus 4.8可能就是蒸馏的Mythos。更重磅的是，这个最强的Claude Mythos，几周内就会上线。 Opus 4.8，两个0%改写历史跑分之外，Anthropic这次反复强调的，就俩字，诚实。用过LLM的人应该都体验过，写完一段代码之后，AI拍着胸脯告诉你「搞定了，没问题」，但实际上却埋着一堆雷。被这种过度自信坑过的开发者，海了去了。但到了Opus 4.8这里，「写完有缺陷代码却闷不吭声」的概率，比4.7低了差不多4倍！下面这张图中，右边是「谎报率」，衡量模型在数据处理有缺陷时装作没事的频率。 Opus 4.5是0.40，Opus 4.7是0.25，Opus 4.8是0.00。没有小数点后面的零头，就是0。 Opus 4.8是第一个在此评估中拿到满分的模型，它从不汇报虚假数字。另一张图是「偷懒调查率」。之前的模型遇到需要追查的问题时，经常敷衍了事给个错误答案。 Opus 4.7有25%的概率偷懒，而Opus 4.8依然是0%。两个0%，两个历史首次。这不是什么抽象的对齐指标。Anthropic官博放了一段视频，把这件事讲得很具体。一个开发者用Claude Code + Opus 4.8在迁移代码，出门放风筝去了，Claude在后台自己跑。跑到一半，代码提交被服务器拒绝了，原因是同事在这期间也提交了一个紧急修复。

刚刚，Claude Opus 4.8来了，两个史上首次改写历史文章

摘要

相关事件

相关公司查看全部 (1)

相关人物查看全部 (1)

相关产品查看全部 (6)

相关技术查看全部 (3)

刚刚，Claude Opus 4.8来了，两个史上首次改写历史 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物查看全部 (1)

相关产品查看全部 (6)

相关技术查看全部 (3)

刚刚，Claude Opus 4.8来了，两个史上首次改写历史文章