随机梯度噪声的非高斯性
本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的α稳定分布。作者建议使用Lévy motion来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。
Jan, 2019
本研究探讨了梯度噪声在深度学习中的正则化作用,发现除了随机梯度下降噪声外,其他类型的噪声也能有效地进行梯度下降的正则化。同时该研究提出了一种噪声下降的算法,能够拓展噪声的选择,有利于大批量SGD训练,同时也不会影响泛化性能。
Jun, 2019
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
Jun, 2020
研究表明在拥有相同迭代次数的情况下,小或适中大小的batch在测试集上比非常大的batch具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的SGD动态的理论解释。
Jun, 2020
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
本文研究了离散时间下具有动量的SGD的时域白噪声的自相关,并研究了epoch-based噪声相关性对于SGD的影响,结果表明对于大于超参数相关值的曲率方向,可以恢复无关噪声的结果,但对于相对平坦的方向,权重方差显著降低。
Jun, 2023
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了SGD的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
通过对教师-学生感知器分类模型的研究,我们在B-η平面上获得了一个相图,分为三个动力学相:(i)由温度控制的噪声主导的SGD,(ii)由大步长主导的SGD和(iii)GD,这些不同相还对应着不同的泛化误差区域。有趣的是,我们的分析揭示了将相(i)和相(ii)分隔开的批次大小B*与训练集大小P呈比例,其中的指数表征了分类问题的难度。
Sep, 2023