摘要
模型能力 还需往上走,但训练成本 却不能再无止境堆砌了——这可能是当前 AI 行业最强烈的共识。 从开发者到模型公司,大家关心的焦点已经 不只是“谁家的模型更强”,而是一个更务实的问题:“同样多的 GPU、同样的训练时间,能不能跑出更多有效实验,吃进更多有效数据,拿到更好的 loss 和下游指标?” 凭借 Hermes Agent (140K Star)火速出圈的 Nous Research 团队,刚刚提出了一种 Token 叠加训练方法:Token Superposition Training (TST),有望把大模型的预训练成本压低一个量级。 目前,该贴的浏览量已突破 41 万。Hugging Face: http://huggingface.co/papers/2605.06546 在论文《Efficient Pre-Training with Token Superposition》中,最值得关注的是一组百亿参数 MoE 实验(Qwen3-like 10B-A1B MoE),效果非常直观: baseline 训练 1.05T tokens 消耗 12311 B200-hours; 而 TST 训练 2T tokens,仅消耗 4768 B200-hours,约为 baseline 的 38.7%; 与此同时,final loss 从 2.252 降至 2.236,HellaSwag、ARC-E、ARC-C、MMLU 等 0-shot 评测同步提升。 换言之,TST 只用了 约四成 GPU 时间,就跑出了更低的 loss 和更好的下游指标。 相当于在相同最终损失下将预训练时间压缩到原来的 40%,提速约 2.5 倍。 如果说,超越龙虾(OpenClaw)、登顶全球 OpenRouter 的 Hermes Agent,证明了 Nous Research 团队既会训模型,也能用 Agent 把能力调教到极致;那么最新提出的 TST,则是把视线从“模型怎么用”,进一步拉回了能力的源头,直击预训练本身。 之所以将 Nous Research 与 DeepSeek 对标,不只是因为这支美国团队同样 长期坚守开源阵营,更因二
摘要可能不完整,可查看原文