Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning 文章

ArXiv CS.CL2026-05-29NEWSen作者: Dong Liu, Yanxuan Yu, Ying Nian Wu

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning · 相关技术