SAW: Stage-Aware Dynamic Weighting for Multi-Objective Reinforcement Learning in Large Language Models 文章

ArXiv CS.AI2026-06-09NEWSen作者: Yuchen He, Baolong Bi, Shenghua Liu, Huaming Liao, Yuyao Ge, Bolin Wan, Siqian Tong, Juan Chen, Jiafeng Guo, Xueqi Cheng

查看原文 →

SAW: Stage-Aware Dynamic Weighting for Multi-Objective Reinforcement Learning in Large Language Models · 相关技术

相关技术

coefficient of variation (CV)Stage-Aware Dynamic Weighting (SAW)multi-objective reinforcement learning SAW DPO GRPO large language models MORL