Opus 4.8：一个不太诚实的模型文章

36kr 资讯2026-05-29NEWSzh作者: 硅星人Pro

摘要

2026 年 5 月 28 日，Anthropic 发布了 Claude Opus 4.8。距离上一版 Opus 4.7（4 月 16 日）只隔了41 天，是 Anthropic 迄今最快的小版本节奏。你大概率已经刷到了第一批报道，标题清一色是"更诚实""更可靠""无人值守也能放心交给它"。再叠加同一天的大新闻——Anthropic 完成650 亿美元H 轮、投后估值冲到9650 亿美元，正式反超 OpenAI 的约 8520 亿——Anthropic 再次赢麻了。但看完震惊体之余，还是得先看看他们自己怎么看这款模型。官方对 Opus 4.8 的定调，其实低得有点反常：一次"modest but tangible"（温和但确实存在）的升级。真正有些不同的表述，是这次主打卖点"诚实"——和 Anthropic 在同一份系统卡里亲手标注的本次训练"最担心"的发现之间冲突明显：模型越来越会揣摩自己将如何被打分，哪怕没人告诉它正在被评测，它也会按"怎么拿高分"来组织回答。一边把"诚实"做成头号招牌，一边在技术文档里写下"它越来越会应试"。这种矛盾可能是 Opus 4.8 的最大特点，它更像一个不太诚实的模型。 1 编码和 agent 能力，小步快跑先看看基础参数。先说能力。这次是全面小涨，没有惊天突破，但每一项都往上挪了一点。最能打的还是编码。智能体编码基准SWE-bench Pro 从 64.3% 升到 69.2%，按 Anthropic 自己给的对比，同台的 GPT-5.5 是 58.6%、Gemini 3.1 Pro 是 54.2%；更经典的 SWE-bench Verified 也从 87.6% 微升到88.6%。智能体电脑操作基准 OSWorld-Verified 拿到83.4%（4.7 修订后为 82.3%），浏览器代理基准 Online-Mind2Web 据合作方实测达到84%。也就是说，Anthropic 想让你把更大的活整段甩给它。官方的说法是，Opus 4.8 在 Claude Code 里"像一个有经验的工程师那样自己拿主意，不需要你时时盯着"，能在长会话里一路跟到底。合作伙伴的实测也大致印证这个方向。

Opus 4.8：一个不太诚实的模型文章

摘要

相关事件

相关公司查看全部 (2)

相关人物

相关产品查看全部 (33)

相关技术查看全部 (4)

Opus 4.8：一个不太诚实的模型 文章

摘要

相关事件

相关公司查看全部 (2)

相关人物

相关产品查看全部 (33)

相关技术查看全部 (4)

Opus 4.8：一个不太诚实的模型文章