一个月的活一周干完，英伟达世界模型训练速度飙升400% 文章

36kr 资讯2026-05-26NEWSzh作者: 新智元

摘要

在通往 AGI 的道路上，世界模型（World Model）被视为让 AI 真正理解并预测物理世界的关键拼图。英伟达近期重磅发布的世界动作模型（WAM） DreamZero 一经发布就在两项机器人基准测试 RoboArena 、MolmoSpaces 上双双登顶，在具身智能领域获得极大关注。与传统VLA等模型不同，WAM将视频这一具备完整时空信息的载体当作自己的核心学习材料，并以一种「先理解世界如何变化，再决定自己如何行动」的模式，使模型天然获得互联网视频所蕴含的海量物理经验。它不再需要大量重复演示来学习单一动作，而是能从多样化的数据中学习世界的物理规律，从而在从未见过的环境和任务中依然保持稳定执行能力。当前最优的VLA模型与DreamZero世界模型在任务成功率、泛化性、跨本体等方面的直观对比上面的表格直观的展示出 DreamZero 模型相比开源最优的 VLA 模型 π0.5，在任务成功率、任务泛化性、后训练对成功率的提升效果、以及跨真机本体的泛化性等方面具有明显的优势，实现了超过 2x 的成功率提升。它的范式革新不仅大幅降低了学习成本，也让机器人的形态适配与技能拓展不再受限于大量专属数据，为多机型协同、快速部署与低成本迭代提供了可行路径。然而，以 Diffusion 架构为主体的 WAM 多模态模型，也给算力和显存带来了巨大的挑战。参考官方开源的 DreamZero 训练代码，采用 8 台 H100 训练 24750 万帧数据，完整训练周期长达 25 天，高昂的训练成本和耗时成为行业复现的主要门槛。为助力前沿研究更高效地落地，无问芯穹与清华大学等联合推出的大规模强化学习框架 RLinf 已正式上线了对 DreamZero 训练的深度支持。在实现功能适配的基础之上更进一步，依托 RLinf 强大的底层系统优化能力，对 DreamZero 的训练管线进行了深度的重构与加速。相比 DreamZero 官方提供的基线训练脚本，RLinf 成功实现了近 4 倍的训练吞吐加速，且具有更好的收敛效果。 RLinf 是如何极致榨干 GPU 的每一滴算力，达成 4 倍训练加速的？接下来将为您一文拆解背后的核心优化思路与逻辑。代码链接：https://github.

一个月的活一周干完，英伟达世界模型训练速度飙升400% 文章

摘要

相关事件

相关公司查看全部 (3)

相关人物

相关产品查看全部 (4)

相关技术查看全部 (8)