Oct, 2017

收敛于全局最优解的学习算法的稳定性和泛化性

TL;DR本文通过建立黑盒稳定性结果,仅依赖于学习算法的收敛和损失函数最小值周围的几何形态,为收敛到全局最小值的学习算法建立新的泛化界限,适用于满足Polyak-Lojasiewicz(PL)和二次增长(QG)条件的非凸损失函数以及一些具有线性激活的神经网络,并使用黑盒结果来证明SGD、GD、RCD和SVRG等优化算法的稳定性在PL和强凸设置中具有可拓展性,同时指出存在简单的具有多个局部最小值的神经网络,在PL设置下SGD稳定,但GD不稳定。