使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。这种随机梯度下降的特定噪声结构被认为是导致这种隐式偏差的原因。使用差分隐私(DP)确保 DNN 的训练时,DP-SGD 会向截断梯度添加高斯噪声。然而,大批量训练仍然导致显著的性能下降,这构成了一个重要的挑战,因为强 DP 保证需要使用大规模批次。我们首先展示这种现象也适用于无噪声 SGD(无截断的 DP-SGD),表明随机性(而不是截断)是这种隐式偏差的原因,即使加入了额外的各向同性高斯噪声。我们在线性最小二乘和对角线线性网络设置中理论上分析了连续版本的无噪声 SGD 所得到的解,并揭示了隐式偏差确实被额外的噪声放大。因此,大批量 DP-SGD 训练的性能问题根源于 SGD 的相同潜在原则,为大批量训练策略的潜在改进提供了希望。
Feb, 2024
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
研究表明在拥有相同迭代次数的情况下,小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的 SGD 动态的理论解释。
Jun, 2020
该论文提出了一个可以研究 Stochastic Gradient Descent 在 overparametrized 模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果,同时可以在线性模型中进行应用。
Oct, 2021
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
研究了标签噪声(或观测噪声)对于随机梯度下降(SGD)的小型抽样设置具有隐式正则化效果的影响,并对其进行了理论分析与实验验证。
Apr, 2023
本文提出了一种名为 'noise enhancement' 的方法,可有效控制随机梯度下降中的噪声,进而提高训练的泛化性能,实验证明,其比小批量训练的效果更佳。
Sep, 2020
当存在连续对称性时,我们表征了随机梯度下降法(SGD)的学习动力学,它与梯度下降法之间的差异是显著的。我们将对称性对学习动力学的影响分为两类:其中一类对称性,SGD 自然地收敛于具有平衡和对齐梯度噪声的解;另一类对称性下,SGD 几乎总是发散。然后,我们证明了即使丢失函数中不存在对称性,我们的结果仍然适用并可以帮助我们理解训练动力学。我们的主要结果是普适的,仅依赖于对称性的存在,而与丢失函数的细节无关。我们证明了提出的理论解释了渐进锐化和平坦化,并可应用于常见的实际问题,如表示规范化,矩阵分解和预热的使用。
研究过参数化模型,标签噪音等对随机梯度下降中的正则化作用及其影响。
Jun, 2021
通过研究深度神经网络的显式正则化对随机梯度下降的作用,证实显式正则化对于高参数化的神经网络成功的贡献远比随机梯度下降方法更为重要。
Jun, 2019