ICLRNov, 2017

随机梯度下降中影响最小值的三个因素

TL;DR探讨了随机梯度下降应用于深度神经网络时的动态收敛特性及其与学习率、批大小等因素对最终解的影响关系,发现学习率与批大小之比是影响 SGD 动态和解宽度的关键决定因素,并得出比值越高,解越宽且一般具有更好的泛化性能的结论。