Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data 文章

ArXiv CS.AI2026-06-04NEWSen作者: Yuval Ran-Milo, Yotam Alexander, Shahar Mendel, Nadav Cohen

大语言模型

查看原文 →

Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data · 相关技术

相关技术

single-layer Transformers Policy Gradient transformers chain-of-thought reinforcement learning