StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning 文章

ArXiv CS.AI2026-05-27NEWSen作者: Yanfei Zhang, Xu Lin, Chenglin Wu

StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning · 相关技术