摘要
在图像和视频生成领域,扩散模型已经成为主流,但为什么一到文本生成,它却容易出现乱码、重复词等问题? 因为文字本质上是离散的 token,而扩散模型更擅长处理连续数据。过去,为了把扩散模型用于文本生成,研究人员主要采用两种方法: 1.离散扩散语言模型:直接在离散 token 空间中定义扩散过程,比如用 MASK 遮盖 token 再逐步还原,或者先把token 扰动到接近均匀分布,再一步步修正。这种方法近几年一直是主流,整体效果也更强。 2.连续扩散语言模型:先把 token 映射成连续的嵌入向量,再在连续空间中完成去噪,最后再映射回离散 token。这条路线在理论上更自然,也更接近视觉扩散模型的做法,但实际效果长期落后于离散方法。 为解决这个问题,麻省理工学院副教授、Google DeepMind 杰出科学家何恺明团队推出了“嵌入式语言流”(Embedded Language Flows,ELF),这是一类基于连续时间流匹配、在连续嵌入空间中运行的扩散模型。 与现有扩散语言模型不同,ELF 在绝大多数时间步内保持在连续嵌入空间中,仅在最终时间步通过共享权重网络映射至离散 token 上。这种形式使其能够直接复用图像扩散模型中的成熟技术。 论文链接:https://arxiv.org/abs/2605.10938 研究结果表明,连续扩散语言模型即使只对离散化做最小处理,也完全可以具备很强的竞争力。ELF 在不使用蒸馏的情况下用更少的采样步数取得了更低的生成困惑度,所需训练 token 数量仅为以往方法的十分之一。 图|ELF 在不使用蒸馏的情况下,以更少的采样步数实现了比以往 DLM 更低的生成困惑度。与此同时,ELF 的训练 token 数量还减少了 10 倍。 先连续生成,再离散解码 ELF 的核心做法,是先将离散 token 映射到连续嵌入空间,在这一空间中用连续时间的流匹配(Flow Matching)建模从高斯噪声到干净嵌入的去噪轨迹;在最后一个时间步,模型会切换到解码模式,将结果解码回离散 token。 图|ELF 的概念示意。橙色点表示在连续嵌入空间中的数据表示,紫色线条展示了从高斯噪声到干净嵌入的去噪轨迹。离散化仅在最终时间步(t=1)通过共享权重网络完成。 在训练阶段,研究团
摘要可能不完整,可查看原文
相关事件
暂无数据
相关公司
暂无数据
相关人物
暂无数据