摘要
在深度学习的发展历程中,以随机梯度下降(SGD)和 Adam 为代表的一阶梯度下降方法是现代模型训练的基础优化算法。 然而,随着大语言模型(LLM)时代的到来,传统优化方法正面临硬件与系统层面的多重瓶颈,主要表现为反向传播引起的内存限制(内存墙)、分布式网络中的通信开销(通信墙)以及处理敏感数据时的隐私保护问题(隐私墙)。 面对这些工程挑战,优化算法的设计与演进方向正发生转变。 近日,来自浙江大学APRIL Lab、复旦大学、上海交大及新加坡国立大学的联合团队发布了最新长文综述,不仅系统回顾了深度学习优化算法的演进轨迹,还针对多种模型架构和训练场景对主流优化器进行了全面的实证评估,为下一代高效、鲁棒、可信的优化方法设计提供了极具价值的实践指南。 论文链接:https://arxiv.org/abs/2604.12968 项目链接:https://github.com/APRIL-AIGC/awesome-optimizer 图|优化方法演化树,以经典基础方法为根节点,发展轨迹分支为一阶、二阶和零阶。节点大小反映引用影响力,不同聚类展示了从基础梯度更新到面向特定场景的高级框架的演进历程 背景 在深入探讨优化器的演进历史之前,研究团队首先介绍了深度学习复杂的优化环境。 模型训练的本质是经验风险最小化,但在高维空间中,神经网络的损失地形是一片崎岖的非凸地带。这里不仅布满了诱导模型陷入停滞的鞍点,还隐藏着无数局部最优的陷阱。SGD正是通过巧妙利用随机梯度带来的噪声,才得以在这片崎岖的地形中跌跌撞撞地逃离鞍点,最终寻找到具备强大泛化能力的平坦极小值。而当我们步入超参数化时代,神经正切核(NTK)理论表明,在无限宽极限下,梯度下降训练的网络动态可近似为固定核上的核回归过程,从而为过参数化网络的优化收敛性质提供了理论解释。 图|优化方法的量化演进时间线 统一的数学视角 针对现有文献中分类零散、演进脉络不够清晰的问题,研究团队构建了统一的数学分类框架,将底层的优化基元划分为三大类: 图|代表性优化方法的分类与对比 1.一阶优化算法(FO) 作为当前应用最广的方法,FO依赖一阶梯度及其派生统计量以低计算开销实现收敛,并严格避免显式的二阶曲率近似。