Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering 论文

2023IEEE Transactions on Pattern Analysis and Machine Intelligence引用 330

Multimodal Machine Learning ApplicationsHuman Pose and Action RecognitionAdvanced Image and Video Retrieval Techniques

人工智能 Advanced Image and Video Retrieval Techniques Multimodal Machine Learning Applications Human Pose and Action Recognition

关系图谱

作者

摘要

Existing visual question answering methods often suffer from cross-modal spurious correlations and oversimplified event-level reasoning processes that fail to capture event temporality, causality, and dynamics spanning over the video. In this work, to address the task of event-level visual question answering, we propose a framework for cross-modal causal relational reasoning. In particular, a set of causal intervention operations is introduced to discover the underlying causal structures across visual and linguistic modalities. Our framework, named Cross-Modal Causal RelatIonal Reasoning (CMCIR), involves three modules: i) Causality-aware Visual-Linguistic Reasoning (CVLR) module for collaboratively disentangling the visual and linguistic spurious correlations via front-door and back-door causal interventions; ii) Spatial-Temporal Transformer (STT) module for capturing the fine-grained interactions between visual and linguistic semantics; iii) Visual-Linguistic Feature Fusion (VLFF) module for learning the global semantic-aware visual-linguistic representations adaptively. Extensive experiments on four event-level datasets demonstrate the superiority of our CMCIR in discovering visual-linguistic causal structures and achieving robust event-level visual question answering.

作者查看全部 (2)

Liang Lin

Guanbin Li

Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering 论文

摘要

作者查看全部 (2)

相关技术查看全部 (3)

相关事件

相关文章