ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention 文章

ArXiv CS.CV2026-05-28NEWSen作者: Wenjie Liu, Hao Wu, Xin Qiu, Xudong Wang, Yingqi Fan, Yihan Zhang, Anhao Zhao, Yunpu Ma, Xiaoyu Shen