轨迹对齐:通过分岔理论理解稳定边缘现象
本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下,训练损失Hessian的最大特征值略高于数值$2/ ext{(步长)}$,训练损失在短时间内呈现非单调行为,但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致,我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。
Feb, 2021
研究了神经网络训练中的难点问题Edge of Stability,发现了一种新的内隐正则化机制,通过对最小化损失面的低维流动,提出对比以往对无穷小更新或梯度噪声的依赖。
May, 2022
本研究发现梯度下降在稳定边缘状态下具有自我稳定性和隐式偏差,可以通过投影梯度下降来描述,并对其在训练过程中的损失、尖锐度和偏差进行了详细预测和验证。
Sep, 2022
本文研究了大步长梯度下降的特性,证明二阶回归模型中存在一种逐渐趋于稳定的过程,这一过程不仅仅局限于神经网络等复杂的高维非线性模型中,这可能是一种离散学习算法。
Oct, 2022
应用梯度下降 (GD) 到神经网络时,损失函数几乎从不呈单调递减。我们找到了一种随着 GD 训练而单调递减的量:梯度流解 (GFS) 所达到的锐度。在理论上,我们分析了具有平方损失的标量神经网络,这可能是出现 EoS 现象最简单的设置。我们在模型中证明了 GFS 锐度单调递减的结果,并表征了在标量网络中 GD 可以证明收敛到 EoS 的设置。从经验上看,我们展示了在平方回归模型以及实用的神经网络架构中,GD 单调递减 GFS 锐度。
May, 2023
最近的实验证明,使用梯度下降的神经网络在损失的Hessian算子范数增长到约等于2/步长η后,就开始在该值周围波动。我们对Sharpness-Aware Minimization(SAM)进行了类似的计算,得到了一个基于梯度范数的稳定边缘。通过三个深度学习训练任务的经验验证,我们发现SAM在该分析所确定的稳定边缘操作。
Sep, 2023
通过对一种简化的2层线性网络模型的分析,我们揭示了梯度下降动力学中锐度现象背后的机制,包括锐度降低、渐进锐化和稳定边缘等,该模型的预测在实际场景中也具有普遍适用性。
Nov, 2023
在本文中,我们证明了在使用二次损失函数优化的线性神经网络中,梯度下降映射是非奇异的,损失函数的全局极小化集合形成平滑流形,并且稳定的极小值在参数空间中形成有界子集。另外,我们证明了如果步长过大,则使梯度下降收敛到临界点的初始化集合的测度为零。
Feb, 2024
在全批量情况下,训练损失Hessian的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量的情况下与神经切线核的迹有关,而不是大的Hessian特征值。我们进行了实验研究,突出了与全批量现象的定性差异,并表明控制随机稳定边界可以帮助优化。
Apr, 2024
用指数欧拉求解器训练神经网络,以准确近似真实的梯度下降动态系统,证明了Hessian矩阵的锐度增加是由于网络的逐层Jacobian矩阵对齐导致的,而对齐程度与数据集大小呈幂律关系,相关性系数在0.74到0.98之间。
May, 2024