摘要
“我语言的局限,即意味着我世界的局限。”( Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. ) 哲学家维特根斯坦在1921年写下这句话时,他谈论的是人类认知的边界。一百年后,这句话精确地描述了大语言模型面临的结构性困境,如果AI的“语言”就是离散token序列,那么它的“世界”永远被困在token能表达的范围内。 这也引出了一个老生常谈的问题:大语言模型范式能走到AGI(通用人工智能)吗? 2024年12月,OpenAI 前首席科学家Ilya Sutskever在NeurIPS发表主题演讲,他说“预训练即将终结”。2026年3月,图灵奖得主Yann LeCun离开Meta创办AMI Labs,直接宣判“大语言模型路线错了”。 两位深度学习殿堂级的大师,一位选择颠覆自己亲手开启的预训练时代,另一位选择继续践行自己坚守多年的世界模型路线,去赌“LLM的下一个时代”。 当然绝对不是当前的模型不好用或没有商业价值,大模型的用户数量及渗透率都在持续增长,产业价值会越来越大。但是从技术路径来看,他们要表达的是:这条路有一个结构性的天花板,这个天花板恰好卡在通往AGI(通用人工智能)的路上。 2026年5月,MIT何恺明团队和字节跳动Seed实验室几乎同时发布论文,给出了一个更明确的信号:语言生成的核心建模过程不必始终发生在离散token空间中,也可以转移到连续embedding或latent空间里完成,最后再映射回文本。 这是第一批来自工程实验的硬证据,逐token预测可能是通向AGI路上的一个局部最优解。但连续空间范式打开了另一条路,这条路的天花板也许更高。 图:美国国家人工智能科学院院士,麻省理工学院电气工程与计算机科学系副教授何恺明,图片由AI生成 01 天花板在哪? 维特根斯坦的话可以这样理解。 人类的离散语言不是思维的原生格式。大脑内部的认知活动是连续的、并行的、高维的。比如人类想到一个苹果时,激活的不是“苹果”两个字的token,而是一大片感觉皮层的连续活动模式,包括颜色、质感、重量、咬下去的声音。人之所以把这团连续体验压缩成“苹果”这个离散符号,纯粹是因为人类大脑的带宽逼你序列化。