Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling 文章

ArXiv CS.AI2026-06-02NEWSen作者: Zhibin Duan, Guowei Rong, Zhuo Li, Bo Chen, Mingyuan Zhou, Dandan Guo

查看原文 →

Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling · 相关技术

相关技术

Bradley-Terry preference model reinforcement learning from human feedback Large language model (LLM)