本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的 α 稳定分布。作者建议使用 Lévy motion 来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。
Jan, 2019
本文对超参数化线性模型和两层神经网络的噪声几何进行全面的理论研究,揭示了随机梯度下降在逃离尖锐极小值时存在沿平坦方向的显著分量。
Oct, 2023
本研究探讨了梯度噪声在深度学习中的正则化作用,发现除了随机梯度下降噪声外,其他类型的噪声也能有效地进行梯度下降的正则化。同时该研究提出了一种噪声下降的算法,能够拓展噪声的选择,有利于大批量 SGD 训练,同时也不会影响泛化性能。
Jun, 2019
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
本文提出了一种名为 'noise enhancement' 的方法,可有效控制随机梯度下降中的噪声,进而提高训练的泛化性能,实验证明,其比小批量训练的效果更佳。
Sep, 2020
研究表明在拥有相同迭代次数的情况下,小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的 SGD 动态的理论解释。
Jun, 2020
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。这种随机梯度下降的特定噪声结构被认为是导致这种隐式偏差的原因。使用差分隐私(DP)确保 DNN 的训练时,DP-SGD 会向截断梯度添加高斯噪声。然而,大批量训练仍然导致显著的性能下降,这构成了一个重要的挑战,因为强 DP 保证需要使用大规模批次。我们首先展示这种现象也适用于无噪声 SGD(无截断的 DP-SGD),表明随机性(而不是截断)是这种隐式偏差的原因,即使加入了额外的各向同性高斯噪声。我们在线性最小二乘和对角线线性网络设置中理论上分析了连续版本的无噪声 SGD 所得到的解,并揭示了隐式偏差确实被额外的噪声放大。因此,大批量 DP-SGD 训练的性能问题根源于 SGD 的相同潜在原则,为大批量训练策略的潜在改进提供了希望。
Feb, 2024