LoMo: Local Modality Substitution for Deeper Vision-Language Fusion 文章

ArXiv CS.CV2026-05-29NEWSen作者: Feng Han, Zhixiong Zhang, Zheming Liang, Yibin Wang, Jiaqi Wang

摘要

arXiv:2605.30265v1 Announce Type: new Abstract: Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities.

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion 文章

摘要

相关事件查看全部 (2)

相关公司

相关人物

相关产品

相关技术查看全部 (1)