Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models 文章

ArXiv CS.CV2026-05-28NEWSen作者: Haozhan Shen, Tiancheng Zhao, Kangjia Zhao, Jianwei Yin