SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection 事件

Name: SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection
Start: 2026-05-28

PRODUCT_LAUNCH2026-05-28影响: MEDIUM

SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection arXiv:2605.28030v1 Announce Type: cross Abstract: Fine-tuning large language models often undermines their safety alignment, a problem further amplified by harmful fine-tuning attacks in which adversarial data removes safeguards and induces unsafe behaviors. We propose SPARD, a defense framework that integrates Safety-Projected Alternating optimization with Relevance-Diversity aware data se

人工智能

关系图谱

SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection · 相关公司

Ram

VanceCOMPANY

Abstract

arXivNONPROFIT

PactNONPROFIT

FrameworkCOMPANY

LoweCOMPANY

ACTNONPROFIT

UBS

VIACOMPANY