BranPO: Scalable Contrastive Branch Sampling for Long-Horizon Agentic Reinforcement Learning 文章

ArXiv CS.CL2026-06-02NEWSen作者: Yubao Zhao, Weiquan Huang, Sudong Wang, Ruochen Zhao, Chen Chen, Yao Shu, Chengwei Qin