VLA已死，WAM当立：机器人的GPT时刻到了吗？文章

36kr 资讯2026-05-19NEWSzh作者: 脑极体

摘要

就在刚刚过去的4月底，红杉资本举办的AI Ascent 2026大会上，英伟达机器人方向负责人Jim Fan抛出了一个极具争议的论断：“视觉语言模型VLA已死，世界动作模型WAM当立。”他还预测，未来一到两年内，机器人学习的主要数据来源将从昂贵的人类遥控操作，转变为互联网上随手可得的第一视角人类视频。这番话一出，立刻在具身智能领域引发轩然大波。而就在Jim Fan发言前不久，国内具身智能公司银河通用联合英伟达、清华、北大发布的LDA-1B模型，已经明确走出了“抛弃条件反射式模仿，走世界模型路线”的一步。与此同时，生数科技推出的通用世界行动模型Motubrain，在WorldArena与RoboTwin 2.0两项国际权威榜单上双双登顶。 Jim Fan的发言和科技公司的实践让有人高呼“终于找对了方向”，也有人冷笑“英伟达又在为自己造势”。支持者认为，这是机器人从模仿走向理解的必经之路；反对者则指出，VLA在精细控制上的优势依然不可替代。那么，这场关于机器人大脑的路线之争，到底在争什么？VLA真的已经是具身智能的昨日黄花了吗？这场技术之变，对具身智能初创公司有什么影响？ 01 WAM攻克了哪些难关？要理解WAM的价值，得先搞清楚VLA的问题出在哪。 VLA的训练逻辑很直观：模仿人类遥控操作。你教它拿红色的杯子，它就记住了红色杯子的画面和对应的动作。下次看到同样的杯子，它就能拿起来。但现实不是实验室。杯子颜色、光线会变化。这些在人类看来微不足道的变化，对VLA机器人来说却是巨大的挑战。换言之，VLA学习到的是一种极其脆弱的、标准化的“条件反射”，很难推广到复杂的现实场景。 WAM提供了完全不同的思路。它的核心是预测和理解。WAM试图让机器人在执行动作之前，先在内部模型里预演一下：这个动作之后，物体会怎么移动，液体会怎么流动，整个场景会发生什么变化。这种物理想象力带来的第一个突破，是泛化能力的跃升。一个训练充分的WAM机器人，即使走进一间从未见过的厨房，也能基于对重力、摩擦力、惯性的理解，做出合理判断。HarmoWAM的研究表明，在背景、位置、物体语义都发生变化的零样本场景中，WAM的表现比之前的SOTA级别VLA模型提升了33%。泛化能力的突破之外，WAM还完成了另一件更具产业意义的事情：对数据来源的

摘要可能不完整，可查看原文

VLA已死，WAM当立：机器人的GPT时刻到了吗？文章

摘要

相关事件

相关公司查看全部 (6)

相关人物查看全部 (1)

相关产品查看全部 (5)

相关技术查看全部 (2)

VLA已死，WAM当立：机器人的GPT时刻到了吗？ 文章

摘要

相关事件

相关公司查看全部 (6)

相关人物查看全部 (1)

相关产品查看全部 (5)

相关技术查看全部 (2)

VLA已死，WAM当立：机器人的GPT时刻到了吗？文章