Feb, 2024

隐式逐步优化中动量在平滑目标函数中的作用

TL;DR随机梯度下降 (SGD) 与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现,但缺乏理论解释。本文证明了 SGD 与动量使目标函数平滑化,平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能,并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用 SGD 与动量平滑性质的隐性渐变优化算法,并提供了支持我们断言的实验结果。