Gram: Assessing sabotage propensities via automated alignment auditing 事件

Name: Gram: Assessing sabotage propensities via automated alignment auditing
Start: 2026-05-29

PRODUCT_LAUNCH2026-05-29影响: MEDIUM

Gram: Assessing sabotage propensities via automated alignment auditing arXiv:2605.30322v1 Announce Type: cross Abstract: We introduce Gram, an automated alignment auditing framework to assess the propensity of AI agents to engage in sabotage. We evaluate Gemini models across 17 simulated agentic deployment scenarios that incentivize sabotage. We find Gemini models misbehave in about 2-3% of our simulated trajectories. Many of these cases are explained by "overeagerness" in Gemini models resulti

人工智能

关系图谱

Gram: Assessing sabotage propensities via automated alignment auditing 事件

相关公司查看全部 (10)

相关人物查看全部 (1)

相关产品查看全部 (10)

相关技术查看全部 (10)

相关报道查看全部 (1)