Reinforcement Learning with Pairwise Preferences in Long-Term Decision Problems 文章

ArXiv CS.AI2026-06-02NEWSen作者: Jonathan Cola\c{c}o Carr, Prakash Panangaden, Doina Precup, Benjamin Van Roy