Learning to Route Languages for Multilingual Policy Optimization 事件

Name: Learning to Route Languages for Multilingual Policy Optimization
Start: 2026-05-26

PRODUCT_LAUNCH2026-05-26影响: MEDIUM

Learning to Route Languages for Multilingual Policy Optimization arXiv:2605.25360v1 Announce Type: new Abstract: Large language models~(LLMs) are trained on heterogeneous multilingual corpora, yet existing policy optimization methods often implicitly restrict each training question to a single response language or rely on a fixed dominant language for supervision. We propose language-routed policy optimization (LRPO), an online policy optimization framework that treats language as a selectable

人工智能

关系图谱

Learning to Route Languages for Multilingual Policy Optimization 事件

Learning to Route Languages for Multilingual Policy Optimization · 相关报道

相关报道