通过随机递归方程分析随机梯度下降的重尾特性
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
Jun, 2019
通过对连续扩散逼近的随机梯度下降进行分析,我们发现它在渐近意义下表现出重尾分布,并给出了尾指数的上下界。我们通过数值实验验证了这些界限,并显示它们通常是 SGD 迭代的经验尾指数的近似。此外,这些界限的显式形式使我们能够量化优化参数与尾指数之间的相互作用,这对于研究神经网络的广义性能和 SGD 避免次优局部极小值的能力的关联问题具有重要意义。
Feb, 2024
理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近,随机梯度下降(SGD)的学习动态与重尾动态有关,这已成功应用于利用这些动态的分形属性的泛化理论中。然而,所推导出的界限依赖于超出计算能力的互信息(解耦)项。在本研究中,我们证明了一类重尾动态轨迹上的泛化界限,而无需这些互信息项。相反,我们通过比较基于经验风险的学习动态(依赖于群体风险)与基于预期风险的动态引入了一个几何解耦项。我们进一步利用重尾和分形文献中的技术对该几何项进行了上界限定,使其完全可计算。此外,为了收紧界限,我们提出了一个基于扰动动态的 PAC-Bayesian 设置,在该设置中,相同的几何项起着关键的作用,并且仍然可以使用上述描述的技术进行界定。
Dec, 2023
我们研究了随机梯度下降(SGD)在实际环境中可能展现出重尾行为,并且尾部的重度可能与整体性能有相关性。我们的贡献在于填补了单次通过(online)SGD 和多次通过(offline)SGD 之间在实际数据量有限情况下,生成重尾行为的机制仍不够清楚的空白。我们证明了离线 SGD 的稳态分布呈现了 “近似” 的幂律尾,并且近似误差由训练数据的经验分布在 Wasserstein 距离下收敛于真实潜在数据分布的速度所控制。随着数据点数量的增加,离线 SGD 行为将越来越类似于幂律分布。
Oct, 2023
本文介绍了使用离散随机递归关系模拟随机优化算法,说明由于局部收敛速度方差的增加,会导致多项式噪声,从而得到具有重尾结构的参数固定点,其优化具有更高的容量,以更好地探索非凸损失面。
Jun, 2020
本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的 α 稳定分布。作者建议使用 Lévy motion 来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。
Jan, 2019
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017
本文提出了一种使用 Feller 过程来逼近 SGD 轨迹以及使用 Hausdorff 维度控制相关广义误差的学习理论框架,同时提出了使用 Feller 过程的尾部指数作为 “容量度量” 的概念,可用于估计广义误差,并且与参数数量不同于现有文献中的容量度量。
Jun, 2020
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016