Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models 文章

ArXiv CS.CV2026-05-26NEWSen作者: Yanting Miao, Yutao Sun, Dexin Wang, Mengyu Zhou, Pascal Poupart, Lei Lv, Qi Zhao, Li Wang, Hao Li, Xiaoxi Jiang, Guanjun Jiang