EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms 文章

ArXiv CS.AI2026-06-04NEWSen作者: Guilin Zhang, Chuanyi Sun, Shahryar Sarkani, John M. Fossaceca