大学习速率下随机梯度下降的良性振荡

Oct, 2023

大学习速率下随机梯度下降的良性振荡

Benign Oscillation of Stochastic Gradient Descent with Large Learning Rates

Miao Lu, Beining Wu, Xiaodong Yang, Difan Zou

TL;DR通过理论研究神经网络在大学习率随机梯度下降算法训练中的泛化性能，我们发现大学习率下神经网络权重的振荡对神经网络的泛化是有益的，并且可能优于小学习率下平滑收敛的神经网络。我们称这种现象为 “良性振荡”。利用深度学习的特征学习视角，我们的理论研究基于一个特征噪声数据生成模型，证明了通过大学习率振荡的 SGD 训练可以有效学习到弱特征，并解释了小学习率 SGD 训练只能学习到强特征而在学习弱特征方面进展缓慢的原因。因此，当新的测试数据仅包含弱特征时，通过大学习率振荡 SGD 训练的神经网络可以持续做出正确的预测，而小学习率 SGD 训练的神经网络则失败。我们的理论研究为理解大学习率训练如何改善神经网络泛化提供了新的见解，并通过实验结果证实了我们的发现。

Abstract

In this work, we theoretically investigate the generalization properties of neural networks (NN) trained by stochastic gradient descent (S

neural networks stochastic gradient descent generalization properties benign oscillation learning rate

发现论文，激发创造

随机梯度下降中噪声的泛化益处

研究表明在拥有相同迭代次数的情况下，小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现，同时研究如何随着预算增长而改变最佳学习率计划，并提供一个基于随机微分方程的 SGD 动态的理论解释。

Jun, 2020

SGD 的极限动力学：修改的损失，相空间振荡和反常扩散

研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态，揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用，通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。

Jul, 2021

训练更快，泛化更好：随机梯度下降的稳定性

本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差，提供了新的对于随机梯度方法多周期泛化性能好的解释，对于神经网络的训练也有新的稳定性解释。

Sep, 2015

随机梯度下降漫步

我们研究了随机梯度下降在超参数化深度神经网络的损失面上如何导航，发现学习率和批量大小在深度神经网络优化和泛化中具有不同的作用，并且 ' 在高度上在墙之间弹跳 ' 机制对于泛化至关重要。

Feb, 2018

方向很重要：关于中等学习率的随机梯度下降的隐式偏差

本研究针对模型学习速率为中等并逐渐降低的情况，研究了 SGD 和 GD 在超参数调节中的常见行为，以此试图解决机器学习中的算法偏差问题，并得出了不同方向偏差可能导致最终预测结果差异的结论。

Nov, 2020

随机梯度噪声的非高斯性

本文研究了神经网络训练中随机梯度噪声向量的分布，发现对于批量大小为 256 或以上的数据集和架构选择，分布最好可以用高斯分布来描述，解释了随机梯度下降在神经网络训练中比梯度下降更具普适性的原因。

Oct, 2019

有限学习率随机梯度下降的噪声与波动

本文探究了随机梯度下降（SGD）及其变种在非消失学习率模式下的基本性质，特别是推导了离散时间 SGD 在二次损失函数中的稳态分布，讨论了其影响，并考虑了 SGD 变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和 Adam 的二阶方法的稳态协方差等应用。

Dec, 2020

通过噪声增强改善泛化能力

本文提出了一种名为 'noise enhancement' 的方法，可有效控制随机梯度下降中的噪声，进而提高训练的泛化性能，实验证明，其比小批量训练的效果更佳。

Sep, 2020

随机梯度下降的噪声几何：定量和分析性特征化

本文对超参数化线性模型和两层神经网络的噪声几何进行全面的理论研究，揭示了随机梯度下降在逃离尖锐极小值时存在沿平坦方向的显著分量。

Oct, 2023

SGD 噪声的蝴蝶效应：行为克隆和自回归中的误差放大

这项研究探讨了使用深度神经网络进行行为克隆的训练不稳定性。我们观察到，尽管对行为克隆损失几乎没有影响，但训练过程中对策略网络进行的小批量随机梯度下降更新导致长时间跨度奖励出现尖锐振荡。我们通过实验证明了这些振荡的统计和计算原因，并发现它们源于小批量随机梯度下降噪声通过不稳定闭环动态的混乱传播。虽然在单步行动预测目标中，随机梯度下降噪声是无害的，但在长时间跨度中会导致灾难性的误差累积，这种效应被称为梯度方差放大。我们证明了许多标准的缓解技术并不能减轻梯度方差放大，但发现迭代的指数移动平均在减轻这种效应上非常有效。我们通过展示连续控制和自回归语言生成中的梯度方差放大现象的存在以及迭代的指数移动平均在其中的改善情况，说明了这一现象的一般性。最后，我们提供了理论实例，强调了迭代的指数移动平均在减轻梯度方差放大方面的好处，并揭示了经典凸模型对于理解深度学习中迭代平均的益处的程度。

Oct, 2023