When Self-Belief Misleads: Active Label Acquisition for Reinforcement Learning with Verifiable Rewards 文章

ArXiv CS.CL2026-05-26NEWSen作者: Li Wang, Xiaodong Lu, Xiaohan Wang, Yikun Ban, Jiajun Chai, Wei Lin, Tianhao Peng, Guojun Yin