Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments 文章

ArXiv CS.CL2026-06-04NEWSen作者: Ibrahim Abdelaziz, Asim Munawar, Kinjal Basu, Maxwell Crouse, Chulaka Gunasekara, Suneet Katrekar, Pavan Kapanipathi