NeuroArmor: Safe-Variant-Guided Representation Consistency for Selective Re-Anchoring in Jailbreak Defense 文章

ArXiv CS.AI2026-06-03NEWSen作者: Zhongyang Lin, Ziran Zhao, Feifei Zhai, Pengyuan Liu