DeepMind：Transformer存在拓扑缺陷，思维链治标不治本文章

36kr 资讯2026-06-17NEWSzh作者: 机器之心

详细信息

来源站点: 36kr 资讯
作者: 机器之心
文章类型: NEWS
语言: zh
发布日期: 2026-06-17

摘要

如今，思维链（CoT）已然成为前沿模型的标配。其机制并不复杂：用户提一个问题，模型会先输出一大段内部推导过程（有时候长达几千个词），然后才给出正式答案。然而，随着模型能力的提升，思维链也越来越长，成本也就水涨船高，越来越贵。社交网络上，我们经常能看到 AI 重度用户望账单而兴叹，悲钱包之空瘪。 Claude Fable 5 发布后，前沿模型的使用成本更是惊人，以至于让一些用户发出了感叹：「只有开赌场和搞诈骗的才用得起」。但是，或许，这条不断提升思维能力的路可能本就走错了方向。近日，一篇来自谷歌 DeepMind 的论文《Transformer 的拓扑麻烦》以一个看似简单的问题，撼动了整个行业的底层逻辑：Transformer 架构本身，就不擅长追踪状态；而「思维链」不过是在给这个结构性缺陷打补丁。论文标题：The Topological Trouble With Transformers 论文地址：https://arxiv.org/abs/2604.17121 值得注意的是，这篇论文的第一作者Michael C. Mozer是 DeepMind 的研究科学家，也是循环神经网络领域的资深研究者。他在 1991 年就提出了处理多尺度时序结构的循环网络模型，并在整个 1990 年代深入研究过 RNN 的梯度消失问题。正是这些工作，在当年埋下了 LSTM（长短期记忆网络）诞生的伏笔。几十年后，他重新审视这个问题。这一次，他的对手换成了主宰整个 AI 时代的 Transformer。 Transformer 为何如此强大，又有何隐患？要理解这篇论文，先得明白 Transformer 是如何工作的。原初 Transformer 架构我们可以想象一座图书馆。每次有人提问，图书馆员不会「记住」之前说过什么，而是把所有对话记录摆在桌上，重新翻阅一遍，然后作答。这就是 Transformer 的核心策略：把整个对话历史都装进「上下文窗口」，通过「注意力机制」检索过去的信息。这个策略非常有效：它绕开了早期循环神经网络（RNN）难以记住远距离信息的老问题，并由此催生了 GPT、Claude、Gemini、DeepSeek 等一系列大模型。

DeepMind：Transformer存在拓扑缺陷，思维链治标不治本文章

详细信息

摘要

相关事件

相关公司查看全部 (4)

相关人物查看全部 (1)

相关产品查看全部 (24)

相关技术查看全部 (9)

DeepMind：Transformer存在拓扑缺陷，思维链治标不治本 文章

详细信息

摘要

相关事件

相关公司查看全部 (4)

相关人物查看全部 (1)

相关产品查看全部 (24)

相关技术查看全部 (9)

DeepMind：Transformer存在拓扑缺陷，思维链治标不治本文章