DeepMind:Transformer存在拓扑缺陷,思维链治标不治本 文章

36kr 资讯2026-06-17NEWSzh作者: 机器之心

详细信息

来源站点
36kr 资讯
作者
机器之心
文章类型
NEWS
语言
zh
发布日期
2026-06-17

摘要

如今,思维链(CoT)已然成为前沿模型的标配。其机制并不复杂:用户提一个问题,模型会先输出一大段内部推导过程(有时候长达几千个词),然后才给出正式答案。 然而,随着模型能力的提升,思维链也越来越长,成本也就水涨船高,越来越贵。社交网络上,我们经常能看到 AI 重度用户望账单而兴叹,悲钱包之空瘪。 Claude Fable 5 发布后,前沿模型的使用成本更是惊人,以至于让一些用户发出了感叹:「只有开赌场和搞诈骗的才用得起」。 但是,或许,这条不断提升思维能力的路可能本就走错了方向。 近日,一篇来自谷歌 DeepMind 的论文《Transformer 的拓扑麻烦》以一个看似简单的问题,撼动了整个行业的底层逻辑:Transformer 架构本身,就不擅长追踪状态;而「思维链」不过是在给这个结构性缺陷打补丁。 论文标题:The Topological Trouble With Transformers 论文地址:https://arxiv.org/abs/2604.17121 值得注意的是,这篇论文的第一作者Michael C. Mozer是 DeepMind 的研究科学家,也是循环神经网络领域的资深研究者。他在 1991 年就提出了处理多尺度时序结构的循环网络模型,并在整个 1990 年代深入研究过 RNN 的梯度消失问题。正是这些工作,在当年埋下了 LSTM(长短期记忆网络)诞生的伏笔。 几十年后,他重新审视这个问题。这一次,他的对手换成了主宰整个 AI 时代的 Transformer。 Transformer 为何如此强大,又有何隐患? 要理解这篇论文,先得明白 Transformer 是如何工作的。 原初 Transformer 架构 我们可以想象一座图书馆。每次有人提问,图书馆员不会「记住」之前说过什么,而是把所有对话记录摆在桌上,重新翻阅一遍,然后作答。 这就是 Transformer 的核心策略:把整个对话历史都装进「上下文窗口」,通过「注意力机制」检索过去的信息。这个策略非常有效:它绕开了早期循环神经网络(RNN)难以记住远距离信息的老问题,并由此催生了 GPT、Claude、Gemini、DeepSeek 等一系列大模型。