Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning 文章

ArXiv CS.CL2026-06-04NEWSen作者: Ritvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma