CRPO: Character-centric Group Relative Policy Optimization for Role-aware Reasoning in Role-playing Agents 文章

ArXiv CS.CL2026-05-26NEWSen作者: Yihong Tang, Kehai Chen, Liang Yue, Benyou Wang, Min Zhang

查看原文 →

CRPO: Character-centric Group Relative Policy Optimization for Role-aware Reasoning in Role-playing Agents · 相关技术

相关技术

Character-Centric Group Relative Policy Optimization large language models Group Relative Policy Optimization reinforcement learning