小米开源可控视频音效生成模型 ControlFoley 事件

Name: 小米开源可控视频音效生成模型 ControlFoley
Start: 2026-05-29

SHUTDOWN2026-05-29影响: LOW

小米开源可控视频音效生成模型 ControlFoley 小米大模型应用团队发布 ControlFoley 开源模型，面向视频同步音效生成中的“可控性”难题，统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。根据介绍，ControlFoley 在多个视频音效生成任务上达到开源 SOTA 表现，在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。 ControlFoley 的核心目标，是构建一个统一的可控视频音效生成框架，让模型同时具备三类能力： TV2A：文本引导视频配音。根据视频和文本提示生成同步音效，文本用于补充和细化画面中的声音语义。 TC-V2A：文本控制视频配音。当文本和视频语义发生冲突时，模型仍能遵循文本意图生成目标声音，同时保持和视频动作的时间同步。 AC-V2A：参考音频控制视频配音。根据视频和参考音频生成同步音效，让输出声音在音色和风格上贴近参考音频，同时不破坏视频节奏。这意味着，ControlFoley 不只是一个“视频生音频”模型，而是一个

智能手机

关系图谱

小米开源可控视频音效生成模型 ControlFoley 事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (10)

相关技术查看全部 (10)

相关报道查看全部 (1)