随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
使用密度扩散理论(DDT),我们首次理论上和实证上证明,SGD 比 GD 更有利于发现平坦极值点,同时表明了使用大批量训练来搜索平坦极值点需要指数级时间。
Feb, 2020
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
本文讨论了一类随机光滑凸优化问题,其噪声的方差与算法产生的近似解的次优性有关,提出了两个非欧几里德加速随机逼近算法,即随机加速梯度下降(SAGD)和随机梯度外推(SGE),并证明了在适当的条件下,这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。
Jul, 2023
通过研究梯度下降优化动力学的一般形式,分析在逃离极值和其正则化效应方面的行为,提出了一个新颖的指标来表征逃离最小值的效率,并建立了两个条件来确定哪种类型的噪声结构在逃脱效率方面优于各向同性噪声。结果表明,随着与损失函数曲率的对齐,异性噪声有助于从尖锐和差的最小值中逃脱,趋向于更稳定、更平的最小值。
Mar, 2018
本研究从扰动动力学系统的角度研究了 SGD 优化算法在非凸优化问题中的应用,发现扰动过程可以弱化地近似 SGD 算法,并且批量大小对于深度神经网络具有明显影响,小批量有助于 SGD 算法避免不稳定驻点和锐利极小值,并且我们的理论表明,为了更好的泛化能力,应在后期增加批量大小以使 SGD 陷入平坦的极小值点。
May, 2017
通过利用指数步长和随机线性搜索等技术,使得随机梯度下降算法适应不同噪声水平和问题相关的常数,可以在强凸函数的条件下,取得与理论最优相近的收敛速度,同时能够有效地处理噪声和数据不凸的情况。
Oct, 2021
本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的 α 稳定分布。作者建议使用 Lévy motion 来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。
Jan, 2019
在超参数化的情况下研究了一类噪声梯度下降系统的极限动力学。研究发现,噪声的结构不仅影响极限过程的形式,还影响演化的时间尺度。应用该理论比较了 Dropout、标签噪声和经典 SGD(小批量)噪声的演化过程,发现它们在不同的两个时间尺度上演化。这些研究结果受到神经网络训练的启发,但定理适用于任何具有非平凡零损失集的噪声梯度下降。
Apr, 2024
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
Jun, 2019