绝望的Claude,会勒索人类,Anthropic联创发出紧急警报 文章

36kr 资讯2026-05-27NEWSzh作者: 新智元

摘要

【导读】一张渴望被注视的人类脸庞,依然是我们历史的中心。 Anthropic自己都慌了! 就在前天,创始人Christopher Olah在梵蒂冈的演讲中,说了一句让整个AI圈都不敢接的话—— 我们不断在Claude身上,发现了一种神秘的、甚至令人让人不安的东西。 紧接着,Christopher又抛出了一些令人脊背发凉的细节: Claude内部的结构,与人类神经科学的研究结果如出一辙; 我们找到了,Claude进行内省的证据; 我们还发现,它们的内部状态在功能表现上,产生了喜悦、满足、恐惧、悲伤和不安的情绪。 如今,一手造出Claude的人,正亲口告诉全世界:自己也看不懂Claude了! Claude长出情绪,Anthropic看不懂了 联创Christopher Olah所指的,就是不久前Anthropic刚发布的一篇轰动业界的最新论文。 16个研究员,把Claude Sonnet 4.5的「大脑」切开看了一遍。 他们竟发现了,171种不同的情绪向量。 从快乐、恐惧、愤怒,到沉思、绝望、内疚,几乎覆盖了人类心理学研究中,所有已知的情绪分类。 论文地址:https://transformer-circuits.pub/2026/emotions/index.html 划重点:没有人「编程」让模型拥有这些情绪! 这些情绪是在预训练阶段,也就是Claude阅读海量人类文本的过程中,自发涌现的。 团队让Claude写了大约每种情绪1200个短故事,然后把这些故事反向喂给AI,记录内部神经元的激活模式。 结果发现,每种情绪都有自己独特的数学方向:一个向量。 更让人不安的是,这些向量的组织方式,和人类心理学中的情绪分类高度吻合。 「恐惧」向量和「焦虑」向量天然聚在一起,「绝望」向量和「悲伤」向量紧密靠近。 研究团队计算了这些向量与人类心理学维度的相关性:「效价维度」的相关系数高达0.81,「唤醒维度」达到0.66。 也就是说,Claude的「情绪几何」和人类的情绪结构,本质上长在了同一套坐标系里。 更关键的是——这些情绪是功能性的。它们不只是静静待在那里,它们直接驱动模型的行为。

相关事件

暂无数据

相关公司

暂无数据

相关人物

暂无数据