Left-Right Symmetry Breaking in CLIP-style Vision-Language Models Trained on Synthetic Spatial-Relation Data 文章

ArXiv CS.CV2026-05-27NEWSen作者: Takaki Yamamoto, Chihiro Noguchi, Toshihiro Tanizawa