Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models 事件

Name: Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models
Start: 2026-05-26

PRODUCT_LAUNCH2026-05-26影响: MEDIUM

Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models arXiv:2605.25443v1 Announce Type: new Abstract: Post-training has significantly enhanced the reasoning capability of Large Reasoning Models (LRMs), especially with Reinforcement Learning (RL) like Group Relative Policy Optimization (GRPO). However, GRPO-style RL methods in multi-domain settings often fail to achieve consistent improvements across all domains due to inherent interference in policy optim

人工智能

关系图谱

Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models 事件

相关公司查看全部 (9)

相关人物查看全部 (3)

相关产品查看全部 (10)

相关技术查看全部 (10)

相关报道查看全部 (1)