Oct, 2023

大学习速率下随机梯度下降的良性振荡

TL;DR通过理论研究神经网络在大学习率随机梯度下降算法训练中的泛化性能,我们发现大学习率下神经网络权重的振荡对神经网络的泛化是有益的,并且可能优于小学习率下平滑收敛的神经网络。我们称这种现象为 “良性振荡”。利用深度学习的特征学习视角,我们的理论研究基于一个特征噪声数据生成模型,证明了通过大学习率振荡的 SGD 训练可以有效学习到弱特征,并解释了小学习率 SGD 训练只能学习到强特征而在学习弱特征方面进展缓慢的原因。因此,当新的测试数据仅包含弱特征时,通过大学习率振荡 SGD 训练的神经网络可以持续做出正确的预测,而小学习率 SGD 训练的神经网络则失败。我们的理论研究为理解大学习率训练如何改善神经网络泛化提供了新的见解,并通过实验结果证实了我们的发现。