随机梯度下降中的重尾现象
通过对连续扩散逼近的随机梯度下降进行分析,我们发现它在渐近意义下表现出重尾分布,并给出了尾指数的上下界。我们通过数值实验验证了这些界限,并显示它们通常是 SGD 迭代的经验尾指数的近似。此外,这些界限的显式形式使我们能够量化优化参数与尾指数之间的相互作用,这对于研究神经网络的广义性能和 SGD 避免次优局部极小值的能力的关联问题具有重要意义。
Feb, 2024
本文提出了一种使用 Feller 过程来逼近 SGD 轨迹以及使用 Hausdorff 维度控制相关广义误差的学习理论框架,同时提出了使用 Feller 过程的尾部指数作为 “容量度量” 的概念,可用于估计广义误差,并且与参数数量不同于现有文献中的容量度量。
Jun, 2020
我们研究了随机梯度下降(SGD)在实际环境中可能展现出重尾行为,并且尾部的重度可能与整体性能有相关性。我们的贡献在于填补了单次通过(online)SGD 和多次通过(offline)SGD 之间在实际数据量有限情况下,生成重尾行为的机制仍不够清楚的空白。我们证明了离线 SGD 的稳态分布呈现了 “近似” 的幂律尾,并且近似误差由训练数据的经验分布在 Wasserstein 距离下收敛于真实潜在数据分布的速度所控制。随着数据点数量的增加,离线 SGD 行为将越来越类似于幂律分布。
Oct, 2023
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
Jun, 2019
理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近,随机梯度下降(SGD)的学习动态与重尾动态有关,这已成功应用于利用这些动态的分形属性的泛化理论中。然而,所推导出的界限依赖于超出计算能力的互信息(解耦)项。在本研究中,我们证明了一类重尾动态轨迹上的泛化界限,而无需这些互信息项。相反,我们通过比较基于经验风险的学习动态(依赖于群体风险)与基于预期风险的动态引入了一个几何解耦项。我们进一步利用重尾和分形文献中的技术对该几何项进行了上界限定,使其完全可计算。此外,为了收紧界限,我们提出了一个基于扰动动态的 PAC-Bayesian 设置,在该设置中,相同的几何项起着关键的作用,并且仍然可以使用上述描述的技术进行界定。
Dec, 2023
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
Jul, 2019
本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的 α 稳定分布。作者建议使用 Lévy motion 来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。
Jan, 2019
本研究揭示了训练算法的动态特性在实现神经网络压缩方案上起着关键作用,通过将压缩性与随机梯度下降的近期性质联系起来,本文证明了当神经网络遵循一定条件时,网络参数具有稀疏性,并且压缩误差可以任意减小,同时可证明良好的压缩性可降低泛化误差,该理论得到了各种神经网络的数值实验验证。
Jun, 2021
使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。
Jul, 2018