May, 2017

非凸随机梯度下降的扩散逼近

TL;DR本研究从扰动动力学系统的角度研究了 SGD 优化算法在非凸优化问题中的应用,发现扰动过程可以弱化地近似 SGD 算法,并且批量大小对于深度神经网络具有明显影响,小批量有助于 SGD 算法避免不稳定驻点和锐利极小值,并且我们的理论表明,为了更好的泛化能力,应在后期增加批量大小以使 SGD 陷入平坦的极小值点。