EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA 文章

ArXiv CS.AI2026-05-28NEWSen作者: Yunsheng Zeng, Gen Li, Yuwei Miao, Xiandong Li, Yujin Wang, Siyu Chen, Luning Wang, Yunhao Qiao, Junfeng Wang, Jianwei Lv, Bo Yuan

查看原文 →

EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA · 相关技术

相关技术

Reinforcement learning from verifiable rewards EAPO reward-mean-based strategy RLVR Entropy-driven Adaptive Policy Optimization Large Reasoning Models