Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models 文章

ArXiv CS.CV2026-06-03NEWSen作者: Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang

查看原文 →

Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models · 相关技术

相关技术

connector-based paradigm Multimodal Large Language Models (MLLMs)