Masked Diffusion Vision-Language Models for Temporal Action Localization 事件

Name: Masked Diffusion Vision-Language Models for Temporal Action Localization
Start: 2026-05-29

PRODUCT_LAUNCH2026-05-29影响: MEDIUM

Masked Diffusion Vision-Language Models for Temporal Action Localization arXiv:2605.29858v1 Announce Type: new Abstract: Temporal action localization (TAL) requires recognizing the target event and localizing its start and end times precisely in untrimmed videos. Recent vision-language formulations improve semantic reasoning and support language-conditioned outputs, but their autoregressive decoders still generate tokens from left to right, preventing later semantic evidence from revising earli

人工智能

关系图谱

Masked Diffusion Vision-Language Models for Temporal Action Localization 事件

Masked Diffusion Vision-Language Models for Temporal Action Localization · 相关报道

相关报道