SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions 文章

ArXiv CS.CL2026-06-05NEWSen作者: Ashima Suvarna, Kendrick Phan, Mehrab Beikzadeh, Hritik Bansal, Saadia Gabriel