Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning 文章

ArXiv CS.AI2026-05-29NEWSen作者: Zhicheng Yang, Zhijiang Guo, Yifan Song, Minrui Xu, Yongxin Wang, Yiwei Wang, Xiaodan Liang, Jing Tang