今天凌晨，Claude Opus 4.8上线，融资650亿美金，但更强的还在后面文章

36kr 资讯2026-05-29NEWSzh作者: 唐韧

摘要

昨晚，Anthropic 发布了最新一代模型 Claude Opus 4.8。圈子里照例又是一波跑分截图刷屏，Opus 4.8 各种领先，编码能力全面霸榜。但说实话，我现在对跑分已经无感了，几乎每家模型发布时都会拿跑分说事。我觉得真正值得关注的，是两个 0%。一个是「谎报率」，就是模型处理数据出了问题，但它装作没事跟你说搞定了。 Opus 4.5 这个数字是 0.40，Opus 4.7 降到 0.25，到了 4.8 直接归零。另一个是「偷懒调查率」，就是遇到需要深挖的问题，模型敷衍了事给你一个似是而非的答案。在这个指标上，Opus 4.7 还有 25% 的概率偷懒，而 Opus 4.8 同样是 0%。两个 0%，两个历史首次。如果你用 AI 写过代码、做过数据分析、搞过一些研究，就知道最怕的不是它能力不够，而是它能力不够还装出一副自己很厉害的样子。 Opus 4.8 解决的就是这个问题，它不再假装什么都会，遇到不确定的东西时，也会主动告诉你「这里我没把握」。在我看来，这个迭代比跑分高 10 个百分点重要得多。那么，Opus 4.8 和前代的 4.6、4.7 到底有什么本质区别？经过大概体验后，我把几个核心差异捋一下。第一，诚实度和可靠性。我自己目前用的是 Opus 4.6，也是我认为在内容创作上表现最好的模型，没有之一。在 4.6 版本里，Claude 在诚实性上虽然已经比同行好，但仍然有不少「过度自信」的问题。后来的 4.7 做了改善，到了 4.8 则彻底解决了。说白了，4.6 像一个能力不错但爱面子的员工，4.7 像一个严谨且能力很强的员工，4.8 像一个真正靠谱的高级工程师。第二，效率。同样的任务，4.8 比 4.7 少用 15% 的步骤，少输出 35% 的 token。对开发者来说，token 就是成本。做得更好还更省，这才是真正的代际进步。第三，编码能力的跃升幅度。这么说吧，4.6 到 4.7 的编码提升是渐进式的，4.7 到 4.8 的提升是跨越式的。在一些极端测试里，比如给你一个编译好的二进制文件，不准反编译，让模型从零重建源代码。4.8 在 1M token 预算下的表现，4.7 要 5M 才能追上。

今天凌晨，Claude Opus 4.8上线，融资650亿美金，但更强的还在后面文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (11)

相关技术

今天凌晨，Claude Opus 4.8上线，融资650亿美金，但更强的还在后面 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (11)

相关技术

今天凌晨，Claude Opus 4.8上线，融资650亿美金，但更强的还在后面文章