StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning 文章

ArXiv CS.CL2026-06-02NEWSen作者: Daoyu Wang, Qingchuan Li, Mingyue Cheng, Jie Ouyang, Shuo Yu, Qi Liu, Enhong Chen

查看原文 →

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning · 相关技术

相关技术

step-level credit assignment step-centric paradigm token-centric paradigm step-level MDP RLVR RLHF Markov Decision Processes LLM reinforcement learning StepPO