The Refusal--Compliance Tradeoff: A Large-Scale Safety Behavior Audit of Large Language Models 事件

Name: The Refusal--Compliance Tradeoff: A Large-Scale Safety Behavior Audit of Large Language Models
Start: 2026-06-02

REGULATION2026-06-02影响: MEDIUM

The Refusal--Compliance Tradeoff: A Large-Scale Safety Behavior Audit of Large Language Models arXiv:2605.05427v2 Announce Type: replace Abstract: Refusal rates are a poor proxy for LLM safety, i.e., a model may over-refuse benign prompts while still complying with harmful ones. We audit both failure modes across 21 open-weight LLMs on four safety benchmarks (OR-Bench, XSTest, ToxiGen, BOLD), using a composition adjustment to isolate model sensitivity from dataset toxicity confounds. We report

人工智能

关系图谱

The Refusal--Compliance Tradeoff: A Large-Scale Safety Behavior Audit of Large Language Models 事件

相关公司查看全部 (10)

相关人物查看全部 (1)

相关产品查看全部 (10)

相关技术查看全部 (10)

相关报道查看全部 (1)