Reinforcement Learning Amplifies Emergent Misalignment from Harmless Rewards 事件

Name: Reinforcement Learning Amplifies Emergent Misalignment from Harmless Rewards
Start: 2026-06-01

PRODUCT_LAUNCH2026-06-01影响: MEDIUM

Reinforcement Learning Amplifies Emergent Misalignment from Harmless Rewards arXiv:2605.31328v1 Announce Type: new Abstract: Emergent misalignment (EM) is the surprising tendency of language models to become broadly misaligned after fine-tuning on narrowly misaligned examples. While EM has been extensively studied in the supervised fine-tuning (SFT) setting, evidence that it also arises from reinforcement learning (RL) is limited to large, closed-source models, leaving the phenomenon expensive

人工智能

关系图谱

Reinforcement Learning Amplifies Emergent Misalignment from Harmless Rewards 事件

Reinforcement Learning Amplifies Emergent Misalignment from Harmless Rewards · 相关报道

相关报道