Cross-Modal Action Recognition in Egocentric Video Using Mamba: Integrating RGB and Hand Skeleton Streams via CLS Token Fusion Strategies 文章

ArXiv CS.CV2026-05-26NEWSen作者: Juan Ignacio Bustos Gorostegui, Maria Elena Buemi