Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry 事件

Name: Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry
Start: 2026-05-27

PRODUCT_LAUNCH2026-05-27影响: MEDIUM

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry arXiv:2604.27019v3 Announce Type: replace-cross Abstract: Safety-aligned language models must refuse harmful requests without broad over-refusal, but it remains unclear how dynamic adversarial fine-tuning changes refusal-control carriers: Kullback--Leibler (KL)-constrained directions or small subspaces that causally modulate refusal without large safe-prompt distribution shifts. We study a 7B backbone under supervised fine-tuning (SFT

人工智能

关系图谱

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry 事件

相关公司查看全部 (9)

相关人物查看全部 (1)

相关产品查看全部 (10)

相关技术查看全部 (10)

相关报道查看全部 (1)