Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement 文章

ArXiv CS.CL2026-05-27NEWSen作者: Dingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang