摘要
2026 年,AI 行业正在经历一场悄然发生的费用危机。 在大多数开发者的印象里,AI 模型的成本在过去几年里一路走低。确实,从 2022 年到 2024 年,前沿模型的推理成本下降了超过千倍。这个趋势让许多团队相信,把 AI 部署进产品只是时间问题。 然而,推理模型的出现打破了这一预期。OpenAI 的 o 系列、Anthropic 的 Claude Extended Thinking、DeepSeek R1—— 这些模型在生成最终回答之前,会先在内部进行大量「思考」,产生数以千计的中间推理步骤,然后再吐出最终答案。这些中间步骤在账单上有个专门的名字:推理token(reasoning tokens)。 问题在于,你得为这些思考过程买单,即便你根本看不到它们。 根据行业研究机构在 2026 年初的统计,一个复杂的代码审查任务,如果使用推理模型,费用可能是普通模型的 5 到 10 倍。一次多步骤规划任务,内部思考步骤消耗的 token 数量,有时会超过一万个。有团队测试发现,让 Claude Opus 4.6 和 Grok-4 分别回答同一个问题时,两者给出了完全相同的答案,但 Grok-4 消耗的 token 数量是 Claude 的两倍多,成本差距接近 10 倍。这一切,仅仅因为模型想得太多。 换句话说,AI 正在为了「把话说清楚」而付出巨大代价。 而这种代价,在某种程度上是设计使然。现有的主流推理模型,都依赖一种叫做「思维链(CoT)」的机制:让模型像人类一样,用自然语言一步步写出推理过程,然后再给出答案。这种方法行之有效,但用自然语言推理,天然就是冗长的。 就在这个背景下,IBM Research 的一个团队发布了一篇论文。他们提出了一个问题:如果 AI 根本不需要用人类语言来思考,会怎样? 论文标题:Thinking Without Words: Efficient Latent Reasoning with Abstract Chain-of-Thought 论文地址:https://arxiv.org/pdf/2604.22709 抽象推理链:一门人类看不懂的语言…
摘要可能不完整,可查看原文