Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning 文章

ArXiv CS.CL2026-05-29NEWSen作者: Dylan Zhang, Yufeng Xu, Haojin Wang, Qingzhi Chen, Hao Peng