ICLRFeb, 2021

随机梯度下降中小批量噪声的强度

TL;DR分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。