Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models 文章

ArXiv CS.CL2026-05-28NEWSen作者: Shuo Nie, Hexuan Deng, Chao Wang, Ruiyu Fang, Xuebo Liu, Shuangyong Song, Yu Li, Min Zhang, Xuelong Li

查看原文 →

Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models · 相关技术

相关技术

truncated resampling strategy process reward model Chain-of-thought reasoning small reasoning models large language models Faithfulness-Aware Step-Level Reinforcement Learning chain-of-thought