HugMap
人工智能
云计算
半导体
网络安全
企业软件
区块链
量子计算
生物科技
新能源与智能制造
智能穿戴
机器人
智能手机
图谱探索
趋势分析
登录
注册
Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs
文章
ArXiv CS.AI
2026-06-09
NEWS
en
作者: Omar Mahmoud, Aly M. Kassem, Thommen George Karimpanal, Buddhika Laknath Semage, Negar Rostamzadeh, Golnoosh Farnadi, Santu Rana
查看原文
→
关系图谱
概览
相关事件
相关公司
相关人物
相关产品
相关技术
Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs · 相关技术
相关技术
Sparse Autoencoder (SAE)
fine-tuning
bidirectional activation steering
weight-editing attacks
country-conditioned harmful advice
sentiment misclassification
bias induction
password-locking
refusal manipulation
jailbreaking
residual-stream activations
large language models