Jailbreak to Protect: Buffering and Reinforcing via Temporary Jailbreaking for Safe Fine-Tuning in Large Language Models 文章

ArXiv CS.CL2026-05-26NEWSen作者: Seokil Ham, Jaehyuk Jang, Wonjun Lee, Changick Kim