一个替代观点:随机梯度下降在何时逃离局部极小值?
本研究证明了随机梯度下降法 (SGD) 可训练深度神经网络,甚至可以收敛于全局最小值。这一结果得益于多个实验验证了 SGD 可以遵循恒星凸轨迹和训练损失近似于零值等性质,并以新方式揭示了 SGD 以确定性方式收敛于全局最小值。
Jan, 2019
本文研究梯度下降和随机梯度下降等算法在机器学习中的应用,分析了这些算法在非凸优化问题中收敛到驻点的情况,提出了变形的算法可以更高效地避免出现维数灾难,从而沟通了理论和实践。
Feb, 2019
本文研究了随机梯度下降(SGD)算法的全局最优性,在探究了之前研究的局限性之后,发现在一些情况下,SGD 可能表现出奇怪且不可取的行为。作者通过构建高维度的优化问题及数据分布,证明了 SGD 在大多数情况下会收敛到局部最大值,逃离鞍点所需时间会相当长,会偏爱锐利的最小值而非平坦的。文中还举了一个小型神经网络作为实例来验证理论,结果强调深度学习中 SGD 的重要性,需要同时分析小批量采样、离散时间更新和实际数据名称等因素。
Jul, 2021
通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε- 稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε- 稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O (1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
Oct, 2023
SGD 使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明 SGD 在经典意义下甚至不会收敛,因此这种 ' 失衡 ' 的行为是由于对于深度网络,SGD 的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了 SGD 的收敛性。
Apr, 2018
本研究从扰动动力学系统的角度研究了 SGD 优化算法在非凸优化问题中的应用,发现扰动过程可以弱化地近似 SGD 算法,并且批量大小对于深度神经网络具有明显影响,小批量有助于 SGD 算法避免不稳定驻点和锐利极小值,并且我们的理论表明,为了更好的泛化能力,应在后期增加批量大小以使 SGD 陷入平坦的极小值点。
May, 2017
本文研究随机版归一化梯度下降算法,并证明了该算法在优化拥有拟凸和局部 Lipschitz 性质的函数时,能够保证收敛到全局最优解。与标准的随机梯度下降算法不同的是,该算法要求使用最小的小批量大小,以避免梯度爆炸等问题。
Jul, 2015
本研究针对带图等情景,探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明,consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好,这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。
Jul, 2018