ICMLMay, 2023

随机梯度下降中动态稳定的隐式正则化

TL;DR本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层 ReLU 神经网络和对角线线性网络的广义性能影响,发现 SGD 的稳定性正则化较于 GD 更强,LR 越大效果越明显,解释了为什么 SGD 比 GD 更具普适性。