Intern VL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks 论文

2024引用 389

Multimodal Machine Learning ApplicationsHuman Pose and Action RecognitionAdvanced Image and Video Retrieval Techniques

人工智能 Advanced Image and Video Retrieval Techniques Multimodal Machine Learning Applications Human Pose and Action Recognition

相关技术:Multimodal Machine Learning Applications Advanced Image and Video Retrieval Techniques Human Pose and Action Recognition

Intern VL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks · 相关文章

暂无数据