Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards 文章

ArXiv CS.CL2026-06-02NEWSen作者: Yiran Shen, Yu Xia, Jonathan Chang, Prithviraj Ammanabrolu