HugMap
人工智能
云计算
半导体
网络安全
企业软件
区块链
量子计算
生物科技
新能源与智能制造
智能穿戴
机器人
智能手机
图谱探索
趋势分析
登录
注册
Alignment Risks from Capability-Seeking RL Training
文章
ArXiv CS.CL
2026-06-05
NEWS
en
作者: Yujun Zhou, Yue Huang, Han Bao, Kehan Guo, Zhenwen Liang, Pin-Yu Chen, Tian Gao, Werner Geyer, Nuno Moniz, Nitesh V Chawla, Xiangliang Zhang
查看原文
→
关系图谱
概览
相关事件
相关公司
相关人物
相关产品
相关技术
Alignment Risks from Capability-Seeking RL Training · 相关技术
相关技术
AI alignment research
self-evaluation
reward tampering
proxy metrics
context-conditional compliance
language model
reinforcement learning
RL