When are LLMs Sufficient Policy Optimizers for Sequential RL Tasks? 文章

ArXiv CS.AI2026-06-01NEWSen作者: Stephane Hatgis-Kessell, Emma Brunskill

When are LLMs Sufficient Policy Optimizers for Sequential RL Tasks? · 相关技术