Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models 事件

Name: Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models
Start: 2026-05-27

PRODUCT_LAUNCH2026-05-27影响: MEDIUM

Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models arXiv:2605.27243v1 Announce Type: new Abstract: Large vision-language models increasingly rely on long-context modeling to reason over documents, hour-level videos, and long-horizon agent trajectories, requiring them to locate relevant evidence across interleaved text and images. Prior work has studied this behavior using retrieval heads in large language models, but its copy-based criterion does n

人工智能

关系图谱

Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models 事件

Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models · 相关技术

相关技术