RLVR without Ineffective Samples: Group Prioritized Off-Policy Optimization for LLM Reasoning 文章

ArXiv CS.AI2026-06-02NEWSen作者: Yixiu Mao, Yun Qu, Qi Wang, Heming Zou, Xiangyang Ji