关于步长调整和渐进锐化之间的相互作用

Nov, 2023

关于步长调整和渐进锐化之间的相互作用

On the Interplay Between Stepsize Tuning and Progressive Sharpening

Vincent Roulet, Atish Agarwala, Fabian Pedregosa

TL;DR最近的实证研究发现，深度学习模型的一个有趣特性是通过优化过程中最大特征值（海森矩阵的最大特征值）逐渐增加，直到在关键值处稳定，此时优化器在稳定边缘操作，给定固定步长；我们通过实证研究了使用步长调节器（如 Armijo 线搜索和 Polyak 步长）时，尤其是隐含仅通过局部量（如 sharpness）调节步长的情况下，sharpness 的演化情况；我们发现 Armijo 线搜索经典的性能不佳可以通过其在全样本或大批量情况下不断增加目标函数 sharpness 来解释；另一方面，Polyak 步长通常在稳定边缘操作或略超出稳定边缘，而且胜过 Armijo 和常数步长；最后我们分析表明解锁步长调节器需要理解步长和 sharpness 的联合动态。

Abstract

Recent empirical work has revealed an intriguing property of deep learning models by which the sharpness (largest eigenvalue of the hessian) increases throughout optimization until it stabilizes around a critical

deep learning models sharpness hessian stepsize tuners stability

发现论文，激发创造

高维分析揭示保守的锐化和随机稳定边缘

在全批量情况下，训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中，特征值的增长速度较慢，我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释，它在小批量的情况下与神经切线核的迹有关，而不是大的 Hessian 特征值。我们进行了实验研究，突出了与全批量现象的定性差异，并表明控制随机稳定边界可以帮助优化。

Apr, 2024

基于锐度感知的最小化与稳定边缘

最近的实验证明，使用梯度下降的神经网络在损失的 Hessian 算子范数增长到约等于 2 / 步长 η 后，就开始在该值周围波动。我们对 Sharpness-Aware Minimization（SAM）进行了类似的计算，得到了一个基于梯度范数的稳定边缘。通过三个深度学习训练任务的经验验证，我们发现 SAM 在该分析所确定的稳定边缘操作。

Sep, 2023

无痛随机梯度：插值，线性搜索和收敛速率

本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法，在数据插值设置中，使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率，同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法，该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率，并在标准分类任务上表现出了良好的性能。

May, 2019

轨迹对齐：通过分岔理论理解稳定边缘现象

通过实证研究，证明最大特征值（也被称为锐度）沿着梯度下降轨迹的演化呈现出一种叫做稳定边缘现象（EoS）的现象，进一步证明了在合适的重新参数化下，不同的梯度下降轨迹会在一个特定的分叉图上对齐，从而建立了锐度逐步增加和 EoS 现象的理论分析。

Jul, 2023

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。

Jul, 2018

自稳定性：梯度下降在稳定边缘的隐性偏差

本研究发现梯度下降在稳定边缘状态下具有自我稳定性和隐式偏差，可以通过投影梯度下降来描述，并对其在训练过程中的损失、尖锐度和偏差进行了详细预测和验证。

Sep, 2022

指数和余弦步长的再审视：简易性、适应性和性能

研究指出指数步长和余弦步长是自适应噪声水平的，不需要知道噪声水平和调整超参数就可以达到几乎最佳性能。探讨了这两种优化策略的收敛速度和表现，实验证明它们最多只需要调整两个超参数就可达到优秀的表现。

Feb, 2020

神经网络训练中的普适锐度动态：固定点分析，稳定边缘和混沌路径

通过对一种简化的 2 层线性网络模型的分析，我们揭示了梯度下降动力学中锐度现象背后的机制，包括锐度降低、渐进锐化和稳定边缘等，该模型的预测在实际场景中也具有普遍适用性。

Nov, 2023

深度学习中步长的重要性

利用梯度下降算法训练神经网络会导致产生离散时间非线性动力系统，算法步长对这些系统的收敛行为有决定性的影响并能解释实际问题中观测到的多种现象，如训练误差的恶化和深度残差网络的性能差异等。

May, 2018

二次回归模型表现出稳定边缘的逐渐加强

本文研究了大步长梯度下降的特性，证明二阶回归模型中存在一种逐渐趋于稳定的过程，这一过程不仅仅局限于神经网络等复杂的高维非线性模型中，这可能是一种离散学习算法。

Oct, 2022