When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models 文章

ArXiv CS.AI2026-05-28NEWSen作者: Dasol Choi, Alex Kwon

When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models · 相关技术