Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards 文章

ArXiv CS.AI2026-05-26NEWSen作者: Xiaodong Lu, Xiaohan Wang, Jiajun Chai, Guojun Yin, Wei Lin, Zhijun Chen, Yu Luo, Fuzhen Zhuang, Yikun Ban, Deqing Wang