When Data Is Scarce: Scaling Sparse Language Models with Repeated Training 文章

ArXiv CS.AI2026-06-02NEWSen作者: Boqian Wu, Qiao Xiao, Patrik Okanovic, Tomasz Sternal, Maurice van Keulen, Mykola Pechenizkiy, Elena Mocanu, Torsten Hoefler, Decebal Constantin Mocanu