Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning 文章

ArXiv CS.AI2026-06-02NEWSen作者: Liuji Chen, Dianxing Tang, Xing Shi, Dingshuo Chen, Qiang Liu, Shu Wu, Liang Wang

查看原文 →

Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning · 相关技术

相关技术

confidence-aware token reweighting difficulty-aware reward shaping tool-free trajectories hard limits tool-use penalties tool abuse GRPO reinforcement learning EAPO