重尾梯度噪声下随机梯度下降的首次退出时间分析
该研究发展了随机修正方程 (SME) 框架的数学基础,以便于分析随机梯度算法的动态,其中后者由一类噪声参数很小的随机微分方程逼近。研究表明,这种逼近可以被理解为一种弱逼近,从而在随机目标的一般设置下,得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时,我们还通过显式计算表明,这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见,这在纯离散时间设置中可能很难获得。
Nov, 2018
本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的α稳定分布。作者建议使用Lévy motion来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。
Jan, 2019
本研究探讨了梯度噪声在深度学习中的正则化作用,发现除了随机梯度下降噪声外,其他类型的噪声也能有效地进行梯度下降的正则化。同时该研究提出了一种噪声下降的算法,能够拓展噪声的选择,有利于大批量SGD训练,同时也不会影响泛化性能。
Jun, 2019
通过研究具有状态相关噪声的随机梯度下降的动态行为,我们证明了幂律动态可以比之前的动态更快地从锐化极小值中逃脱,从而提出了一种新方法来进一步提高其概括能力。
Jun, 2020
通过随机梯度下降和先进的基于随机梯度下降的算法找到人工神经网络的适当参数,优化算法在目标函数的某种噪声区域内倾向于选择“平坦”最小值,这一趋势与连续时间SGD与均匀噪声的选择是不同的。
Jun, 2021
本文研究在强凸光滑目标下使用常数步长随机梯度下降的优化问题,通过马洛夫链的视角对其性质进行研究,证明了当梯度噪音分布满足一定条件时,该迭代过程以总变差距离或Wasserstein-2距离收敛于一个不变分布,同时证明了该极限分布具有次高斯或次指数分布的浓度性质;最后针对一些具体应用,推导出了高可信度界限。
Jun, 2023
通过研究一类广泛的非线性随机梯度下降方法在高概率下的收敛界限,我们证明了对于具有Lipschitz连续梯度的强凸损失函数,即使在噪声具有重尾分布的情况下,也能实现失败概率的对数依赖性,这对于任何具有有界(逐分量或联合)输出的非线性性质(如剪切、归一化和量化)都是成立的,与以往对于具有重尾噪声的研究相比,我们的研究结果在噪声的矩阶限制上得以松弛。
Oct, 2023
通过对连续扩散逼近的随机梯度下降进行分析,我们发现它在渐近意义下表现出重尾分布,并给出了尾指数的上下界。我们通过数值实验验证了这些界限,并显示它们通常是SGD迭代的经验尾指数的近似。此外,这些界限的显式形式使我们能够量化优化参数与尾指数之间的相互作用,这对于研究神经网络的广义性能和SGD避免次优局部极小值的能力的关联问题具有重要意义。
Feb, 2024
我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程(SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模SGD来追求Li等人(2019)的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。
Jul, 2024