均值随机梯度下降中的重尾出现
本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的α稳定分布。作者建议使用Lévy motion来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。
Jan, 2019
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
Jun, 2019
本文提出了一种使用Feller过程来逼近SGD轨迹以及使用Hausdorff维度控制相关广义误差的学习理论框架,同时提出了使用Feller过程的尾部指数作为“容量度量”的概念,可用于估计广义误差,并且与参数数量不同于现有文献中的容量度量。
Jun, 2020
本研究揭示了训练算法的动态特性在实现神经网络压缩方案上起着关键作用,通过将压缩性与随机梯度下降的近期性质联系起来,本文证明了当神经网络遵循一定条件时,网络参数具有稀疏性,并且压缩误差可以任意减小,同时可证明良好的压缩性可降低泛化误差,该理论得到了各种神经网络的数值实验验证。
Jun, 2021
本研究讨论了使用第一阶梯度算法进行的非凸随机优化问题,其中梯度估计可能具有重尾特征,结果表明梯度剪裁,动量和归一化梯度下降的组合可以在高概率下收敛于关键点,特别适用于光滑损失的已知最佳速率,适用于任意光滑度规范,并针对克服该领域二阶光滑损失引发的问题进行讨论。
Jun, 2021
我们研究了随机梯度下降(SGD)在实际环境中可能展现出重尾行为,并且尾部的重度可能与整体性能有相关性。我们的贡献在于填补了单次通过(online)SGD和多次通过(offline)SGD之间在实际数据量有限情况下,生成重尾行为的机制仍不够清楚的空白。我们证明了离线SGD的稳态分布呈现了“近似”的幂律尾,并且近似误差由训练数据的经验分布在Wasserstein距离下收敛于真实潜在数据分布的速度所控制。随着数据点数量的增加,离线SGD行为将越来越类似于幂律分布。
Oct, 2023
通过研究一类广泛的非线性随机梯度下降方法在高概率下的收敛界限,我们证明了对于具有Lipschitz连续梯度的强凸损失函数,即使在噪声具有重尾分布的情况下,也能实现失败概率的对数依赖性,这对于任何具有有界(逐分量或联合)输出的非线性性质(如剪切、归一化和量化)都是成立的,与以往对于具有重尾噪声的研究相比,我们的研究结果在噪声的矩阶限制上得以松弛。
Oct, 2023
理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近,随机梯度下降(SGD)的学习动态与重尾动态有关,这已成功应用于利用这些动态的分形属性的泛化理论中。然而,所推导出的界限依赖于超出计算能力的互信息(解耦)项。在本研究中,我们证明了一类重尾动态轨迹上的泛化界限,而无需这些互信息项。相反,我们通过比较基于经验风险的学习动态(依赖于群体风险)与基于预期风险的动态引入了一个几何解耦项。我们进一步利用重尾和分形文献中的技术对该几何项进行了上界限定,使其完全可计算。此外,为了收紧界限,我们提出了一个基于扰动动态的PAC-Bayesian设置,在该设置中,相同的几何项起着关键的作用,并且仍然可以使用上述描述的技术进行界定。
Dec, 2023