稳定性边界训练的原因 —— 分层雅可比对齐
本研究发现梯度下降在稳定边缘状态下具有自我稳定性和隐式偏差,可以通过投影梯度下降来描述,并对其在训练过程中的损失、尖锐度和偏差进行了详细预测和验证。
Sep, 2022
在全批量情况下,训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量的情况下与神经切线核的迹有关,而不是大的 Hessian 特征值。我们进行了实验研究,突出了与全批量现象的定性差异,并表明控制随机稳定边界可以帮助优化。
Apr, 2024
通过实证研究,证明最大特征值(也被称为锐度)沿着梯度下降轨迹的演化呈现出一种叫做稳定边缘现象(EoS)的现象,进一步证明了在合适的重新参数化下,不同的梯度下降轨迹会在一个特定的分叉图上对齐,从而建立了锐度逐步增加和 EoS 现象的理论分析。
Jul, 2023
本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下,训练损失 Hessian 的最大特征值略高于数值 $2/ ext {(步长)}$,训练损失在短时间内呈现非单调行为,但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致,我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。
Feb, 2021
通过对一种简化的 2 层线性网络模型的分析,我们揭示了梯度下降动力学中锐度现象背后的机制,包括锐度降低、渐进锐化和稳定边缘等,该模型的预测在实际场景中也具有普遍适用性。
Nov, 2023
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
Jul, 2023
本论文探究了损失海森矩阵在多项分类任务中的演化,以了解损失曲率对训练动态的影响。结果表明,成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域,提高学习率稳定性,类似于各种训练不稳定性缓解策略最终解决神经网络优化的相同失效模式,即差的条件。
Oct, 2021
最近的实验证明,使用梯度下降的神经网络在损失的 Hessian 算子范数增长到约等于 2 / 步长 η 后,就开始在该值周围波动。我们对 Sharpness-Aware Minimization(SAM)进行了类似的计算,得到了一个基于梯度范数的稳定边缘。通过三个深度学习训练任务的经验验证,我们发现 SAM 在该分析所确定的稳定边缘操作。
Sep, 2023
在本文中,我们证明了在使用二次损失函数优化的线性神经网络中,梯度下降映射是非奇异的,损失函数的全局极小化集合形成平滑流形,并且稳定的极小值在参数空间中形成有界子集。另外,我们证明了如果步长过大,则使梯度下降收敛到临界点的初始化集合的测度为零。
Feb, 2024