ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation 文章

ArXiv CS.AI2026-05-28NEWSen作者: Hongru Hou, Tiehua Mei, Denghui Geng, Jinhui Huang, Ao Xu, Hengrui Chen, Jiaqing Liang, Deqing Yang