STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens 文章

ArXiv CS.CL2026-05-26NEWSen作者: Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li