Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling 文章

ArXiv CS.CL2026-06-03NEWSen作者: Runpeng Dai, Tong Zheng, Rui Liu, Chengsong Huang, Hongtu Zhu

查看原文 →

Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling · 相关技术

相关技术

Markov decision process (MDP)constrained optimization Lagrangian relaxation reinforcement learning Markov Decision Processes adaptive sampling large language models Test-Time Scaling