HugMap
人工智能
云计算
半导体
网络安全
企业软件
区块链
量子计算
生物科技
新能源与智能制造
智能穿戴
机器人
智能手机
图谱探索
趋势分析
登录
注册
Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs
文章
ArXiv CS.CV
2026-05-26
NEWS
en
作者: Shangpin Peng, Weinong Wang, Zhuotao Tian, Senqiao Yang, Xing Wu, Haotian Xu, Chengquan Zhang, Takashi Isobe, Baotian Hu, Min Zhang
查看原文
→
关系图谱
概览
相关事件
相关公司
相关人物
相关产品
相关技术
Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs · 相关技术
相关技术
ORM
ODE
PLA
LLM
远程代码执行(RCE)
reinforcement learning from human feedback
reinforcement learning
Unified
Stan
Referring expression comprehension (REC)
RLHF
Parts-of-Speech (POS) tags
Narrative Abstraction Benchmark
MIT
LMM
HIS
For
FFI
ENA
Direct Preference Optimization
DPO
DAPT
ANN