Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO 文章

ArXiv CS.AI2026-06-01NEWSen作者: Yiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu