Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases 文章

ArXiv CS.CL2026-06-01NEWSen作者: Dongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee

大语言模型

查看原文 →

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases · 相关人物

暂无数据