何恺明团队“扩散模型”新作：在“最后一公里”离散解码文章

36kr 文章2026-05-13NEWSzh作者: 学术头条

摘要

在图像和视频生成领域，扩散模型已经成为主流，但为什么一到文本生成，它却容易出现乱码、重复词等问题？因为文字本质上是离散的 token，而扩散模型更擅长处理连续数据。过去，为了把扩散模型用于文本生成，研究人员主要采用两种方法： 1.离散扩散语言模型：直接在离散 token 空间中定义扩散过程，比如用 MASK 遮盖 token 再逐步还原，或者先把token 扰动到接近均匀分布，再一步步修正。这种方法近几年一直是主流，整体效果也更强。 2.连续扩散语言模型：先把 token 映射成连续的嵌入向量，再在连续空间中完成去噪，最后再映射回离散 token。这条路线在理论上更自然，也更接近视觉扩散模型的做法，但实际效果长期落后于离散方法。为解决这个问题，麻省理工学院副教授、Google DeepMind 杰出科学家何恺明团队推出了“嵌入式语言流”（Embedded Language Flows，ELF），这是一类基于连续时间流匹配、在连续嵌入空间中运行的扩散模型。与现有扩散语言模型不同，ELF 在绝大多数时间步内保持在连续嵌入空间中，仅在最终时间步通过共享权重网络映射至离散 token 上。这种形式使其能够直接复用图像扩散模型中的成熟技术。论文链接：https://arxiv.org/abs/2605.10938 研究结果表明，连续扩散语言模型即使只对离散化做最小处理，也完全可以具备很强的竞争力。ELF 在不使用蒸馏的情况下用更少的采样步数取得了更低的生成困惑度，所需训练 token 数量仅为以往方法的十分之一。图｜ELF 在不使用蒸馏的情况下，以更少的采样步数实现了比以往 DLM 更低的生成困惑度。与此同时，ELF 的训练 token 数量还减少了 10 倍。先连续生成，再离散解码 ELF 的核心做法，是先将离散 token 映射到连续嵌入空间，在这一空间中用连续时间的流匹配（Flow Matching）建模从高斯噪声到干净嵌入的去噪轨迹；在最后一个时间步，模型会切换到解码模式，将结果解码回离散 token。图｜ELF 的概念示意。橙色点表示在连续嵌入空间中的数据表示，紫色线条展示了从高斯噪声到干净嵌入的去噪轨迹。离散化仅在最终时间步（t=1）通过共享权重网络完成。在训练阶段，研究团

摘要可能不完整，可查看原文

何恺明团队“扩散模型”新作：在“最后一公里”离散解码文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (2)

相关技术查看全部 (1)

何恺明团队“扩散模型”新作：在“最后一公里”离散解码 文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (2)

相关技术查看全部 (1)

何恺明团队“扩散模型”新作：在“最后一公里”离散解码文章