Reinforcement Learning Amplifies Emergent Misalignment from Harmless Rewards 文章

ArXiv CS.CL2026-06-01NEWSen作者: Magnus J{\o}rgenv{\aa}g, David Kacz\'er, Lasse Ruttert, Marvin G\"ulhan, Lucie Flek, Florian Mai