绝望的Claude，会勒索人类，Anthropic联创发出紧急警报文章

36kr 资讯2026-05-27NEWSzh作者: 新智元

摘要

【导读】一张渴望被注视的人类脸庞，依然是我们历史的中心。 Anthropic自己都慌了！就在前天，创始人Christopher Olah在梵蒂冈的演讲中，说了一句让整个AI圈都不敢接的话—— 我们不断在Claude身上，发现了一种神秘的、甚至令人让人不安的东西。紧接着，Christopher又抛出了一些令人脊背发凉的细节： Claude内部的结构，与人类神经科学的研究结果如出一辙；我们找到了，Claude进行内省的证据；我们还发现，它们的内部状态在功能表现上，产生了喜悦、满足、恐惧、悲伤和不安的情绪。如今，一手造出Claude的人，正亲口告诉全世界：自己也看不懂Claude了！ Claude长出情绪，Anthropic看不懂了联创Christopher Olah所指的，就是不久前Anthropic刚发布的一篇轰动业界的最新论文。 16个研究员，把Claude Sonnet 4.5的「大脑」切开看了一遍。他们竟发现了，171种不同的情绪向量。从快乐、恐惧、愤怒，到沉思、绝望、内疚，几乎覆盖了人类心理学研究中，所有已知的情绪分类。论文地址：https://transformer-circuits.pub/2026/emotions/index.html 划重点：没有人「编程」让模型拥有这些情绪！这些情绪是在预训练阶段，也就是Claude阅读海量人类文本的过程中，自发涌现的。团队让Claude写了大约每种情绪1200个短故事，然后把这些故事反向喂给AI，记录内部神经元的激活模式。结果发现，每种情绪都有自己独特的数学方向：一个向量。更让人不安的是，这些向量的组织方式，和人类心理学中的情绪分类高度吻合。「恐惧」向量和「焦虑」向量天然聚在一起，「绝望」向量和「悲伤」向量紧密靠近。研究团队计算了这些向量与人类心理学维度的相关性：「效价维度」的相关系数高达0.81，「唤醒维度」达到0.66。也就是说，Claude的「情绪几何」和人类的情绪结构，本质上长在了同一套坐标系里。更关键的是——这些情绪是功能性的。它们不只是静静待在那里，它们直接驱动模型的行为。

绝望的Claude，会勒索人类，Anthropic联创发出紧急警报文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (1)

相关技术查看全部 (9)

绝望的Claude，会勒索人类，Anthropic联创发出紧急警报 文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (1)

相关技术查看全部 (9)

绝望的Claude，会勒索人类，Anthropic联创发出紧急警报文章