Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective 文章

ArXiv CS.AI2026-06-02NEWSen作者: Feng Zhang, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang, Guanjun Jiang