摘要
在通往 AGI 的道路上,世界模型(World Model)被视为让 AI 真正理解并预测物理世界的关键拼图。 英伟达近期重磅发布的世界动作模型(WAM) DreamZero 一经发布就在两项机器人基准测试 RoboArena 、MolmoSpaces 上双双登顶,在具身智能领域获得极大关注。 与传统VLA等模型不同,WAM将视频这一具备完整时空信息的载体当作自己的核心学习材料,并以一种「先理解世界如何变化,再决定自己如何行动」的模式,使模型天然获得互联网视频所蕴含的海量物理经验。 它不再需要大量重复演示来学习单一动作,而是能从多样化的数据中学习世界的物理规律,从而在从未见过的环境和任务中依然保持稳定执行能力。 当前最优的VLA模型与DreamZero世界模型在任务成功率、泛化性、跨本体等方面的直观对比 上面的表格直观的展示出 DreamZero 模型相比开源最优的 VLA 模型 π0.5,在任务成功率、任务泛化性、后训练对成功率的提升效果、以及跨真机本体的泛化性等方面具有明显的优势,实现了超过 2x 的成功率提升。 它的范式革新不仅大幅降低了学习成本,也让机器人的形态适配与技能拓展不再受限于大量专属数据,为多机型协同、快速部署与低成本迭代提供了可行路径。 然而,以 Diffusion 架构为主体的 WAM 多模态模型,也给算力和显存带来了巨大的挑战。 参考官方开源的 DreamZero 训练代码,采用 8 台 H100 训练 24750 万帧数据,完整训练周期长达 25 天,高昂的训练成本和耗时成为行业复现的主要门槛。 为助力前沿研究更高效地落地,无问芯穹与清华大学等联合推出的大规模强化学习框架 RLinf 已正式上线了对 DreamZero 训练的深度支持。 在实现功能适配的基础之上更进一步,依托 RLinf 强大的底层系统优化能力,对 DreamZero 的训练管线进行了深度的重构与加速。 相比 DreamZero 官方提供的基线训练脚本,RLinf 成功实现了近 4 倍的训练吞吐加速,且具有更好的收敛效果。 RLinf 是如何极致榨干 GPU 的每一滴算力,达成 4 倍训练加速的?接下来将为您一文拆解背后的核心优化思路与逻辑。 代码链接:https://github.