RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models 文章

ArXiv CS.CL2026-05-29NEWSen作者: Xiao Feng, Bo Han, Zhanke Zhou, Jiaqi Fan, Jiangchao Yao, Ka Ho Li, Dahai Yu, Michael Kwok-Po Ng