Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs 文章

ArXiv CS.AI2026-06-09NEWSen作者: Omar Mahmoud, Aly M. Kassem, Thommen George Karimpanal, Buddhika Laknath Semage, Negar Rostamzadeh, Golnoosh Farnadi, Santu Rana

查看原文 →

Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs · 相关技术

相关技术

Sparse Autoencoder (SAE)fine-tuning bidirectional activation steering weight-editing attacks country-conditioned harmful advice sentiment misclassification bias induction password-locking refusal manipulation jailbreaking residual-stream activations large language models