小米开源可控视频音效生成模型 ControlFoley 事件

SHUTDOWN2026-05-29影响: LOW

小米开源可控视频音效生成模型 ControlFoley 小米大模型应用团队发布 ControlFoley 开源模型,面向视频同步音效生成中的“可控性”难题,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。 根据介绍,ControlFoley 在多个视频音效生成任务上达到开源 SOTA 表现,在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。 ControlFoley 的核心目标,是构建一个统一的可控视频音效生成框架,让模型同时具备三类能力: TV2A:文本引导视频配音。根据视频和文本提示生成同步音效,文本用于补充和细化画面中的声音语义。 TC-V2A:文本控制视频配音。当文本和视频语义发生冲突时,模型仍能遵循文本意图生成目标声音,同时保持和视频动作的时间同步。 AC-V2A:参考音频控制视频配音。根据视频和参考音频生成同步音效,让输出声音在音色和风格上贴近参考音频,同时不破坏视频节奏。 这意味着,ControlFoley 不只是一个“视频生音频”模型,而是一个