HMPO: Hybrid Median-length Policy Optimization for Chain-of-Thought Compression 文章

ArXiv CS.CL2026-06-02NEWSen作者: Minghui Zheng, Hongxu Chen, Huimin Ren, Hongsheng Xin, Xiaoyang Qu, Ze Wang, Shuling Yang, Ziyu Peng, Kaike Zhang, Pan Zhou, Kun Zhan