清华00后校友王冠再出新作：用1/900 token、1/432算力，颠覆Transformer预训练模型文章

36kr 资讯2026-05-26NEWSzh作者: 账号已注销

摘要

打破传统大模型预训练范式，清华 00 后校友王冠团队再出新作：他们利用分层循环模型（HRM）取代标准 Transformer，提出了超越 Scaling 的高效预训练 HRM-Text。论文链接：https://arxiv.org/abs/2605.20613 在仅使用比标准 baseline 模型少约 100-900 倍的训练 token、96-432 倍的估计计算量的情况下，HRM-Text 依然实现了可媲美 2B 至 7B 参数开源模型的性能表现。同时，使用 1B 参数、40B 非重复 token，并以约 1500 美元的训练成本，HRM-Text 便在主流基准测试中取得了如下成绩：MMLU 60.7%、ARC-C 81.9%、DROP 82.2%、GSM8K 84.5%、MATH 56.2%。图｜预训练效率。在此基础上，他们明确提出：结构先验与有针对性的训练目标，可以显著降低预训练门槛。这种训练方案可以让从零开始训练基础模型变得可行。 HRM-Text 是怎样设计的？大语言模型（LLM）预训练，越来越依赖少数拥有充足算力和数据资源的机构。训练一个有竞争力的基础模型，往往需要数万亿 token、数千张 GPU，甚至上千万美元的算力投入。然而，当前的训练模式并不高效，大量计算都消耗在了提示词、格式填充和网页噪声等无关 token 上，导致大量训练算力并没有直接服务于推理。在这项工作中，研究团队重新设计了架构和训练目标，使得 HRM-Text 的预训练相对更为高效。架构：采用双时间尺度的分层循环模型，把计算拆成慢速的 H 模块和快速的 L 模块。标准 Transformer 对每个 token 只做一次前向传播，HRM 则会在同一 token 上进行多轮递归更新。H 和 L 模块各自只占递归核心参数量的一半，整体计算量大致相当于对同一套参数做 4 次递归展开，在不增加参数量的前提下提高了计算深度。训练目标：不再沿用标准的全文自回归预训练，而是直接在指令-回答对上训练，只对回答部分计算损失，并配合 PrefixLM 掩码，让指令部分双向注意，回答部分按因果掩码生成。图｜HRM-Text 架构。

清华00后校友王冠再出新作：用1/900 token、1/432算力，颠覆Transformer预训练模型文章

摘要

相关事件

相关公司查看全部 (2)

相关人物

相关产品查看全部 (2)

相关技术查看全部 (2)

清华00后校友王冠再出新作：用1/900 token、1/432算力，颠覆Transformer预训练模型 文章

摘要

相关事件

相关公司查看全部 (2)

相关人物

相关产品查看全部 (2)

相关技术查看全部 (2)

清华00后校友王冠再出新作：用1/900 token、1/432算力，颠覆Transformer预训练模型文章