Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models 文章

ArXiv CS.CL2026-05-26NEWSen作者: Wenlong Deng, Jiaji Huang, Kaan Ozkara, Yushu Li, Christos Thrampoulidis, Xiaoxiao Li, Youngsuk Park