Feb, 2024
隐式逐步优化中动量在平滑目标函数中的作用
Role of Momentum in Smoothing Objective Function in Implicit Graduated
Optimization
TL;DR随机梯度下降(SGD)与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现,但缺乏理论解释。本文证明了SGD与动量使目标函数平滑化,平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能,并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用SGD与动量平滑性质的隐性渐变优化算法,并提供了支持我们断言的实验结果。