摘要
昨晚,Anthropic 发布了最新一代模型 Claude Opus 4.8。 圈子里照例又是一波跑分截图刷屏,Opus 4.8 各种领先,编码能力全面霸榜。 但说实话,我现在对跑分已经无感了,几乎每家模型发布时都会拿跑分说事。 我觉得真正值得关注的,是两个 0%。 一个是「谎报率」,就是模型处理数据出了问题,但它装作没事跟你说搞定了。 Opus 4.5 这个数字是 0.40,Opus 4.7 降到 0.25,到了 4.8 直接归零。 另一个是「偷懒调查率」,就是遇到需要深挖的问题,模型敷衍了事给你一个似是而非的答案。 在这个指标上,Opus 4.7 还有 25% 的概率偷懒,而 Opus 4.8 同样是 0%。 两个 0%,两个历史首次。 如果你用 AI 写过代码、做过数据分析、搞过一些研究,就知道最怕的不是它能力不够,而是它能力不够还装出一副自己很厉害的样子。 Opus 4.8 解决的就是这个问题,它不再假装什么都会,遇到不确定的东西时,也会主动告诉你「这里我没把握」。 在我看来,这个迭代比跑分高 10 个百分点重要得多。 那么,Opus 4.8 和前代的 4.6、4.7 到底有什么本质区别? 经过大概体验后,我把几个核心差异捋一下。 第一,诚实度和可靠性。 我自己目前用的是 Opus 4.6,也是我认为在内容创作上表现最好的模型,没有之一。 在 4.6 版本里,Claude 在诚实性上虽然已经比同行好,但仍然有不少「过度自信」的问题。 后来的 4.7 做了改善,到了 4.8 则彻底解决了。 说白了,4.6 像一个能力不错但爱面子的员工,4.7 像一个严谨且能力很强的员工,4.8 像一个真正靠谱的高级工程师。 第二,效率。 同样的任务,4.8 比 4.7 少用 15% 的步骤,少输出 35% 的 token。 对开发者来说,token 就是成本。做得更好还更省,这才是真正的代际进步。 第三,编码能力的跃升幅度。 这么说吧,4.6 到 4.7 的编码提升是渐进式的,4.7 到 4.8 的提升是跨越式的。 在一些极端测试里,比如给你一个编译好的二进制文件,不准反编译,让模型从零重建源代码。4.8 在 1M token 预算下的表现,4.7 要 5M 才能追上。
相关事件
暂无数据
相关人物
暂无数据
相关技术
暂无数据