深度学习中稳定性边缘处的梯度下降理解
本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下,训练损失Hessian的最大特征值略高于数值$2/ ext{(步长)}$,训练损失在短时间内呈现非单调行为,但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致,我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。
Feb, 2021
本文揭示了关于Adam算法等自适应梯度方法在深度学习中的训练动态的知识匮乏。研究结果发现,在Full-batch和足够大的Batch设置中,Hessian预处理的最大特征值通常会达到某个数值,即梯度下降算法的稳定阈值。此外,即使是自适应方法在稳定边缘的训练中,其行为也不同于非自适应方法,因为它们可以不断进入高曲率区域,同时调整预处理器来进行补偿。
Jul, 2022
本研究发现梯度下降在稳定边缘状态下具有自我稳定性和隐式偏差,可以通过投影梯度下降来描述,并对其在训练过程中的损失、尖锐度和偏差进行了详细预测和验证。
Sep, 2022
本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调GD迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而指数损失可能导致GD迭代在EoS区域内灾难性发散。
May, 2023
应用梯度下降 (GD) 到神经网络时,损失函数几乎从不呈单调递减。我们找到了一种随着 GD 训练而单调递减的量:梯度流解 (GFS) 所达到的锐度。在理论上,我们分析了具有平方损失的标量神经网络,这可能是出现 EoS 现象最简单的设置。我们在模型中证明了 GFS 锐度单调递减的结果,并表征了在标量网络中 GD 可以证明收敛到 EoS 的设置。从经验上看,我们展示了在平方回归模型以及实用的神经网络架构中,GD 单调递减 GFS 锐度。
May, 2023
本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层ReLU神经网络和对角线线性网络的广义性能影响,发现SGD的稳定性正则化较于GD更强,LR越大效果越明显,解释了为什么SGD比GD更具普适性。
May, 2023
通过实证研究,证明最大特征值(也被称为锐度)沿着梯度下降轨迹的演化呈现出一种叫做稳定边缘现象(EoS)的现象,进一步证明了在合适的重新参数化下,不同的梯度下降轨迹会在一个特定的分叉图上对齐,从而建立了锐度逐步增加和EoS现象的理论分析。
Jul, 2023
最近的实验证明,使用梯度下降的神经网络在损失的Hessian算子范数增长到约等于2/步长η后,就开始在该值周围波动。我们对Sharpness-Aware Minimization(SAM)进行了类似的计算,得到了一个基于梯度范数的稳定边缘。通过三个深度学习训练任务的经验验证,我们发现SAM在该分析所确定的稳定边缘操作。
Sep, 2023
我们深入探讨了随机梯度下降(SGD)的线性稳定性与锐利度之间的关系,并介绍了一种损失海森矩阵的一致性度量,用于判断 SGD 在最优点处的线性不稳定性。
Jan, 2024
在本文中,我们证明了在使用二次损失函数优化的线性神经网络中,梯度下降映射是非奇异的,损失函数的全局极小化集合形成平滑流形,并且稳定的极小值在参数空间中形成有界子集。另外,我们证明了如果步长过大,则使梯度下降收敛到临界点的初始化集合的测度为零。
Feb, 2024