GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models 事件

Name: GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models
Start: 2026-05-29

PRODUCT_LAUNCH2026-05-29影响: MEDIUM

GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models arXiv:2605.29398v1 Announce Type: cross Abstract: Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered by the intractability of the policy likelihood. A dominant and efficient family of methods replaces the likelihood in standard RL with its evidence lower bound (ELBO), estimated from randomly masked sequences. Despi

人工智能

关系图谱

GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models 事件

相关公司查看全部 (7)

相关人物查看全部 (2)

相关产品查看全部 (10)

相关技术查看全部 (10)

相关报道查看全部 (1)