Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径文章

36kr 资讯2026-05-15NEWSzh作者: AI前线

摘要

模型能力 还需往上走，但训练成本 却不能再无止境堆砌了——这可能是当前 AI 行业最强烈的共识。从开发者到模型公司，大家关心的焦点已经 不只是“谁家的模型更强”，而是一个更务实的问题：“同样多的 GPU、同样的训练时间，能不能跑出更多有效实验，吃进更多有效数据，拿到更好的 loss 和下游指标？” 凭借 Hermes Agent （140K Star）火速出圈的 Nous Research 团队，刚刚提出了一种 Token 叠加训练方法：Token Superposition Training （TST），有望把大模型的预训练成本压低一个量级。目前，该贴的浏览量已突破 41 万。Hugging Face: http://huggingface.co/papers/2605.06546 在论文《Efficient Pre-Training with Token Superposition》中，最值得关注的是一组百亿参数 MoE 实验（Qwen3-like 10B-A1B MoE），效果非常直观： baseline 训练 1.05T tokens 消耗 12311 B200-hours；而 TST 训练 2T tokens，仅消耗 4768 B200-hours，约为 baseline 的 38.7%；与此同时，final loss 从 2.252 降至 2.236，HellaSwag、ARC-E、ARC-C、MMLU 等 0-shot 评测同步提升。换言之，TST 只用了 约四成 GPU 时间，就跑出了更低的 loss 和更好的下游指标。 相当于在相同最终损失下将预训练时间压缩到原来的 40%，提速约 2.5 倍。如果说，超越龙虾（OpenClaw）、登顶全球 OpenRouter 的 Hermes Agent，证明了 Nous Research 团队既会训模型，也能用 Agent 把能力调教到极致；那么最新提出的 TST，则是把视线从“模型怎么用”，进一步拉回了能力的源头，直击预训练本身。之所以将 Nous Research 与 DeepSeek 对标，不只是因为这支美国团队同样 长期坚守开源阵营，更因二

摘要可能不完整，可查看原文

Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径文章

摘要

相关事件

相关公司查看全部 (3)

相关人物

相关产品

相关技术查看全部 (5)

Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径 文章

摘要

相关事件

相关公司查看全部 (3)

相关人物

相关产品

相关技术查看全部 (5)

Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径文章