Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning 文章

ArXiv CS.AI2026-05-29NEWSen作者: Yuxiao Yang, Weitong Zhang

查看原文 →

Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning · 相关人物

暂无数据