Jul, 2021
使用恒定大学习率的SGD可收敛于局部最大值
SGD May Never Escape Saddle Points
TL;DR本文研究了随机梯度下降(SGD)算法的全局最优性,在探究了之前研究的局限性之后,发现在一些情况下,SGD可能表现出奇怪且不可取的行为。作者通过构建高维度的优化问题及数据分布,证明了SGD在大多数情况下会收敛到局部最大值,逃离鞍点所需时间会相当长,会偏爱锐利的最小值而非平坦的。文中还举了一个小型神经网络作为实例来验证理论,结果强调深度学习中SGD的重要性,需要同时分析小批量采样、离散时间更新和实际数据名称等因素。