Internalize the Temperature: On-Policy Self-Distillation as Policy Reheater for Reinforcement Learning 文章

ArXiv CS.CL2026-06-02NEWSen作者: Xuewei Yang, Jiachen Yu, Jie Wu, Shaoning Sun, Junjie Wang, Yujiu Yang