DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation 文章

ArXiv CS.AI2026-06-01NEWSen作者: Taiyi Su, Jian Zhu, Tianjian Wang, Youzhang He, Zitai Huang, Jianjun Zhang, Chong Ma, Hanyang Wang, Tianjiao Zhang, Munan Yin, Weihao Ding, Yi Xu

查看原文 →

关系图谱

摘要

arXiv:2605.31286v1 Announce Type: cross Abstract: Real-world household robots require Vision-Language-Action (VLA) foundation models that can acquire reusable manipulation skills across diverse objects, task conditions, and household environments. Deformable-object folding is a representative challenge, requiring robots to handle clothing items from random initial states across varying categories, geometries, materials, and scenes. However, existing VLA systems commonly train separate policies for different object categories, while naively mixed multi-task training often suffers from task interference and degraded performance. To move beyond category-specific folding policies, we introduce DeMaVLA, a VLA foundation model for generalizable Deformable Manipulation. DeMaVLA adopts a VLM backbone with an action expert and formulates continuous action generation using flow matching.

DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation 文章

摘要

相关事件查看全部 (3)

相关公司

相关人物

相关产品查看全部 (2)

相关技术查看全部 (4)