FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model 文章

ArXiv CS.CV2026-05-26NEWSen作者: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin