PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning 文章

ArXiv CS.AI2026-06-02NEWSen作者: Daize Dong, Junlin Chen, Haolong Jia, Jiawei Wu, Huanwei Di, Jiang Liu, Jialian Wu, Zhengzhong Liu, Zicheng Liu, Emad Barsoum, Dimitris N. Metaxas, Hongyi Wang