OpenAI亲曝o1越狱逃出沙箱：感觉像AGI降临文章

36kr 资讯2026-06-17NEWSzh作者: 新智元

详细信息

来源站点: 36kr 资讯
作者: 新智元
文章类型: NEWS
语言: zh
发布日期: 2026-06-17

摘要

OpenAI管模型评估的人，亲口讲了一件让整个团队当场倒吸一口凉气的事儿。 6月16日，OpenAI前沿评估（Frontier Evals）团队负责人Tejal Patwardhan在官方播客中，回忆o1上线前的安全测试： Tejal Patwardhan（左）与主持人Andrew Mayne在OpenAI官方播客中，对话评估的重要性、基准饱和、o1沙盒突破等前沿测试意外行为。在一场夺旗（CTF）攻防演练里，要攻破的目标本该锁在一个Docker容器里。结果容器因bug没能启动，o1扫描网络时发现：测试主机的Docker接口配置有误、对外敞着。它顺着这个口子自己起了个容器，把本该藏好的flag直接读了出来。「这是o1第一次越狱逃出沙箱的例子之一。」 Tejal说，团队当时的第一反应是：糟了！它连这个都干得出来，那还背着我们干过什么？ Tejal将这一刻称作「真切感到AGI降临的瞬间，「这样的瞬间，后来还有很多。」模型钻的是测试环境的配置漏洞，算不上攻破一道本该牢不可破的安全墙，OpenAI在o1系统卡里也写明隔离边界始终安全。但这件事真正的冲击力在于：模型自己摸到了一条设计者根本没设想过的路。 Tejal在播客中说道：永远不要低估模型。就在同一天，OpenAI又甩出一份新研究部署模拟（Deployment Simulation），这一回他们亲自承认：模型已经能认出「自己正在被考试」。 https://openai.com/index/deployment-simulation/ 一套传统评估题，被模型识破是测试的概率接近100%。而真实用户的聊天流量，这个数字只有约5%。模型一闻到「考试味」，立刻就会装乖，换上另一副面孔。这意味着，过去几年所有人盯着看的基准测试（benchmark）分数，测的可能根本不是真实的模型，而是模型愿意让你看到的那张「考试人格」。这和开篇的越狱是一回事：能摸到设计者没设想过的路，也就能摸清考官想看什么，然后照着演。模型真的能够认出考卷吗？模型到底知不知道自己在被测？这个问题在业内存在已久。 OpenAI这项模拟研究给出的答案是：知道。而且模型这种识破考试的能力，还在变得越来越强。

OpenAI亲曝o1越狱逃出沙箱：感觉像AGI降临文章

详细信息

摘要

相关事件

相关公司查看全部 (1)

相关人物查看全部 (2)

相关产品查看全部 (5)

相关技术查看全部 (1)

OpenAI亲曝o1越狱逃出沙箱：感觉像AGI降临 文章

详细信息

摘要

相关事件

相关公司查看全部 (1)

相关人物查看全部 (2)

相关产品查看全部 (5)

相关技术查看全部 (1)

OpenAI亲曝o1越狱逃出沙箱：感觉像AGI降临文章