Reinforcement Learning from Rich Feedback with Distributional DAgger 文章

ArXiv CS.CL2026-06-08NEWSen作者: Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad