BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization 文章

ArXiv CS.CL2026-06-04NEWSen作者: Saket Reddy, Ke Yang, ChengXiang Zhai

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization · 相关技术