VLA不会死,但不融合世界模型的除外 文章

36kr 资讯2026-06-02NEWSzh作者: 智能相对论

摘要

文 | 智能相对论 作者 | 叶远风 2026年5月,具身智能圈子里流传着一个不太好笑的杜撰笑话:一个VLA模型在演示时,被要求“把桌上那个苹果拿给我”。机械臂优雅地伸过去,稳稳地抓住了一个马克杯。现场死寂。工程师冷汗直冒,赶紧在Pad上打字:“重新定义苹果”。 过去半年,类似的翻车笑话很多,主角从国内估值最高的那几家独角兽,到大洋彼岸Figure AI、Physical Intelligence,无一幸免。 前两年,行业还在为VLA(Vision-Language-Action,视觉-语言-动作模型)这个技术路线摇旗呐喊。Covariant的RFM-1刚露面时,媒体恨不得把“通用机器人奇点”的帽子直接扣它头上。谷歌DeepMind的RT-2论文一出,二级市场的分析师们连夜改报告,把具身智能的商业化时间表往前挪了三年。 到了现在,没人再提“奇点”了。 大家关心的是,这玩意儿到底能不能在工厂里把螺丝拧进孔里,而不是把螺丝刀捅进自己的电机里。在VLA体系下,具身智能稍显拙劣的表现,让英伟达机器人一号位Jim Fan甚至直接高呼“VLA已死”。 只是,这话说得太早。 VLA不会死,那些试图只用互联网图文视频和几张机械臂遥操作数据就幻想造出通用机器人的VLA,确实该被埋进土里,但另一种东西正在长出来,它融合了被行业念叨了好几年却一直没认真对待的“世界模型”。这可能是未来三年,具身智能唯一能走通的路。 活在互联网里的“缸中大脑” 要理解VLA为什么频频翻车,得先搞清楚它的基因缺陷。 现在主流的VLA架构,无论是谷歌的RT-2,还是国内星尘智能等公司捣鼓的东西,骨子里的逻辑都是一脉相承的。先用互联网上海量的图文数据,把视觉和语言对齐,让模型看懂图、听懂人话;然后,再接入机器人的动作数据,做端到端的微调,让模型能输出动作指令。 这套打法的最大诱惑力在于“省钱”。它试图复用大语言模型和视觉-语言模型的基础设施,把机器人学习变成一个“轻量化”的微调任务。 投资人爱听这个故事:不用从零开始收集昂贵的物理世界交互数据,只需站在互联网巨头的肩膀上。 但问题来了。互联网数据教会了模型“苹果是红色的圆形物体”,却没教会它“苹果被施加10牛顿的力会发生形变并可能滚开”。

相关事件

暂无数据