Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization 文章

ArXiv CS.CL2026-05-29NEWSen作者: Shiping Gao, Hongzhan Chen, Xiaojun Quan, Qifan Wang, Lifu Huang