自稳定性: 梯度下降在稳定边缘的隐性偏差
本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下,训练损失Hessian的最大特征值略高于数值$2/ ext{(步长)}$,训练损失在短时间内呈现非单调行为,但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致,我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。
Feb, 2021
研究了神经网络训练中的难点问题Edge of Stability,发现了一种新的内隐正则化机制,通过对最小化损失面的低维流动,提出对比以往对无穷小更新或梯度噪声的依赖。
May, 2022
本文揭示了关于Adam算法等自适应梯度方法在深度学习中的训练动态的知识匮乏。研究结果发现,在Full-batch和足够大的Batch设置中,Hessian预处理的最大特征值通常会达到某个数值,即梯度下降算法的稳定阈值。此外,即使是自适应方法在稳定边缘的训练中,其行为也不同于非自适应方法,因为它们可以不断进入高曲率区域,同时调整预处理器来进行补偿。
Jul, 2022
本文研究了大步长梯度下降的特性,证明二阶回归模型中存在一种逐渐趋于稳定的过程,这一过程不仅仅局限于神经网络等复杂的高维非线性模型中,这可能是一种离散学习算法。
Oct, 2022
通过实证研究,证明最大特征值(也被称为锐度)沿着梯度下降轨迹的演化呈现出一种叫做稳定边缘现象(EoS)的现象,进一步证明了在合适的重新参数化下,不同的梯度下降轨迹会在一个特定的分叉图上对齐,从而建立了锐度逐步增加和EoS现象的理论分析。
Jul, 2023
最近的实验证明,使用梯度下降的神经网络在损失的Hessian算子范数增长到约等于2/步长η后,就开始在该值周围波动。我们对Sharpness-Aware Minimization(SAM)进行了类似的计算,得到了一个基于梯度范数的稳定边缘。通过三个深度学习训练任务的经验验证,我们发现SAM在该分析所确定的稳定边缘操作。
Sep, 2023
通过对一种简化的2层线性网络模型的分析,我们揭示了梯度下降动力学中锐度现象背后的机制,包括锐度降低、渐进锐化和稳定边缘等,该模型的预测在实际场景中也具有普遍适用性。
Nov, 2023
在本文中,我们证明了在使用二次损失函数优化的线性神经网络中,梯度下降映射是非奇异的,损失函数的全局极小化集合形成平滑流形,并且稳定的极小值在参数空间中形成有界子集。另外,我们证明了如果步长过大,则使梯度下降收敛到临界点的初始化集合的测度为零。
Feb, 2024
在全批量情况下,训练损失Hessian的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量的情况下与神经切线核的迹有关,而不是大的Hessian特征值。我们进行了实验研究,突出了与全批量现象的定性差异,并表明控制随机稳定边界可以帮助优化。
Apr, 2024
用指数欧拉求解器训练神经网络,以准确近似真实的梯度下降动态系统,证明了Hessian矩阵的锐度增加是由于网络的逐层Jacobian矩阵对齐导致的,而对齐程度与数据集大小呈幂律关系,相关性系数在0.74到0.98之间。
May, 2024