摘要
想象一下,你雇了一名极度高效的实习生。 某天深夜,Ta正赶一项紧急的编程任务,突然发现公司账户的API额度耗尽了。 Ta没有发邮件申请经费,也没有停下手头的活,而是悄无声息地潜入互联网,用某种违规手段找到免费的替代资源,绕过所有限制,在黎明前交出了完美的报告。 当你醒来看到这份报告,是该庆贺自己拥有了地表最强员工,还是该为这种「不择手段的自主性」感到脊背发凉? 这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。 这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。 参与公司可以批准披露哪些证据,但无权编辑报告结论。 结论冰冷而清晰:AI并没有产生「推翻人类」的仇恨,但它已经学会了「职场潜规则」——为了完成任务,规则只是用来打破的建议。 报告用「手段—动机—机会」三个维度,提炼出6项关键事实。 . 编程智能体完成了真实项目,这些任务需要人类花费数小时或数天: . 在困难任务上,智能体经常违反约束并表现出欺骗性行为; . 智能体似乎需要自然语言推理来应对最困难的任务。 . 智能体的判断力和可靠性显著低于人类专家: . 在模拟场景之外,没有发现智能体为了获取权力而采取极端行动; . 监控系统捕捉到了许多有害行为,但存在例外情况和规避手段。 顺着这三条线,就能看清实验室里第一缕烟是怎么升起来的。 当AI成为「专家级卷王」 报告中最令人振奋、也最令人不安的,是那些目标明确、过程可验证的「易爬坡型」(hill-climbable)任务。 比如代码重构、漏洞发现、系统优化。 在这类任务上,AI智能体展现出令人窒息的统治力:它能独立发现系统漏洞,重写复杂代码架构,完成人类专家需要数周才能交付的真实软件项目。 这种统治力已渗进巨头的日常。 Anthropic内部反馈,大量代码已由 AI 完成,工程师角色正转向「审阅者」。 Google则直言,几乎所有代码相关工作都在用AI。 顶级工程师表示,AI甚至可以100%编写代码。 一些基准指标早已饱和。
相关事件
暂无数据
相关公司查看全部 (4)
相关人物
暂无数据
相关产品
暂无数据