Jun, 2020

随机梯度下降在非凸问题中的几乎必然收敛

TL;DR本文针对随机梯度下降算法在非凸问题中的收敛性进行轨迹分析,首先证明了在广泛的步长策略范围内,SGD生成的迭代序列保持有界并以概率1收敛,随后证明了SGD避开了严格的鞍点/流形的概率是1,最后证明了算法在采用Theta(1/n^p)步长时收敛速度为O(1/n^p),这为调整算法步长提供了重要的指导建议,并且在CIFAR的ResNet架构中,展示了此启发式方法加速收敛的效果。