Jul, 2022
稳定性边缘的自适应梯度方法
Adaptive Gradient Methods at the Edge of Stability
TL;DR本文揭示了关于Adam算法等自适应梯度方法在深度学习中的训练动态的知识匮乏。研究结果发现,在Full-batch和足够大的Batch设置中,Hessian预处理的最大特征值通常会达到某个数值,即梯度下降算法的稳定阈值。此外,即使是自适应方法在稳定边缘的训练中,其行为也不同于非自适应方法,因为它们可以不断进入高曲率区域,同时调整预处理器来进行补偿。