VLA已死,WAM当立:机器人的GPT时刻到了吗? 文章

36kr 资讯2026-05-19NEWSzh作者: 脑极体

摘要

就在刚刚过去的4月底,红杉资本举办的AI Ascent 2026大会上,英伟达机器人方向负责人Jim Fan抛出了一个极具争议的论断:“视觉语言模型VLA已死,世界动作模型WAM当立。”他还预测,未来一到两年内,机器人学习的主要数据来源将从昂贵的人类遥控操作,转变为互联网上随手可得的第一视角人类视频。 这番话一出,立刻在具身智能领域引发轩然大波。 而就在Jim Fan发言前不久,国内具身智能公司银河通用联合英伟达、清华、北大发布的LDA-1B模型,已经明确走出了“抛弃条件反射式模仿,走世界模型路线”的一步。与此同时,生数科技推出的通用世界行动模型Motubrain,在WorldArena与RoboTwin 2.0两项国际权威榜单上双双登顶。 Jim Fan的发言和科技公司的实践让有人高呼“终于找对了方向”,也有人冷笑“英伟达又在为自己造势”。支持者认为,这是机器人从模仿走向理解的必经之路;反对者则指出,VLA在精细控制上的优势依然不可替代。 那么,这场关于机器人大脑的路线之争,到底在争什么?VLA真的已经是具身智能的昨日黄花了吗?这场技术之变,对具身智能初创公司有什么影响? 01 WAM攻克了哪些难关? 要理解WAM的价值,得先搞清楚VLA的问题出在哪。 VLA的训练逻辑很直观:模仿人类遥控操作。你教它拿红色的杯子,它就记住了红色杯子的画面和对应的动作。下次看到同样的杯子,它就能拿起来。 但现实不是实验室。杯子颜色、光线会变化。这些在人类看来微不足道的变化,对VLA机器人来说却是巨大的挑战。换言之,VLA学习到的是一种极其脆弱的、标准化的“条件反射”,很难推广到复杂的现实场景。 WAM提供了完全不同的思路。它的核心是预测和理解。WAM试图让机器人在执行动作之前,先在内部模型里预演一下:这个动作之后,物体会怎么移动,液体会怎么流动,整个场景会发生什么变化。 这种物理想象力带来的第一个突破,是泛化能力的跃升。一个训练充分的WAM机器人,即使走进一间从未见过的厨房,也能基于对重力、摩擦力、惯性的理解,做出合理判断。HarmoWAM的研究表明,在背景、位置、物体语义都发生变化的零样本场景中,WAM的表现比之前的SOTA级别VLA模型提升了33%。 泛化能力的突破之外,WAM还完成了另一件更具产业意义的事情:对数据来源的

摘要可能不完整,可查看原文