Jointly Modeling Deep Video and Compositional Text to Bridge Vision and Language in a Unified Framework 论文

2015Proceedings of the AAAI Conference on Artificial Intelligence引用 319

Multimodal Machine Learning ApplicationsVideo Analysis and SummarizationGenerative Adversarial Networks and Image Synthesis

人工智能 Generative Adversarial Networks and Image Synthesis Multimodal Machine Learning Applications Video Analysis and Summarization

相关技术:Generative Adversarial Networks and Image Synthesis Multimodal Machine Learning Applications

Jointly Modeling Deep Video and Compositional Text to Bridge Vision and Language in a Unified Framework · 作者

Caiming Xiong

Jason J. Corso

Ran Xu