3DVLA: Enhancing Vision-Language-Action Models via 3D Spatial and Instance Understanding 文章

ArXiv CS.CV2026-05-29NEWSen作者: Zhongyu Xia, Yousen Tang, Bingqing Wei, Yongtao Wang

查看原文 →

3DVLA: Enhancing Vision-Language-Action Models via 3D Spatial and Instance Understanding · 相关技术

相关技术

vision-language-action models VLM priors 3D perception 3D perception methods 3D instance understanding multi-view consistency 3D scene understanding VLM