Memory-Efficient LLM Training with Dynamic Sparsity: From Stability to Practical Scaling 文章

ArXiv CS.AI2026-06-02NEWSen作者: Qiao Xiao, Boqian Wu, Patrik Okanovic, Tomasz Sternal, Maurice van Keulen, Elena Mocanu, Mykola Pechenizkiy, Decebal Constantin Mocanu, Torsten Hoefler