Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts 文章

ArXiv CS.CL2026-06-05NEWSen作者: Wenbo Pan, Shujie Liu, Chin-Yew Lin, Jingying Zeng, Xianfeng Tang, Xiangyang Zhou, Yan Lu, Xiaohua Jia