本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法,即在梯度中添加协方差噪声,通过对噪声矩阵的对数Frobenius范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能,而且不会影响优化性能以及训练时间。
Feb, 2019
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
Jun, 2020
此研究探讨一些最优化方法(包括用于神经网络的一阶梯度下降和二阶自然梯度下降)的隐式偏差如何影响其泛化性能,并提出了管理偏差方差的几种方法及在回归问题中的应用。
研究表明在拥有相同迭代次数的情况下,小或适中大小的batch在测试集上比非常大的batch具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的SGD动态的理论解释。
本文提出了一种名为'noise enhancement'的方法,可有效控制随机梯度下降中的噪声,进而提高训练的泛化性能,实验证明,其比小批量训练的效果更佳。
Sep, 2020
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
本文研究了非凸矩形矩阵分解问题,通过引入噪声来解决全局极小值的不确定性,表明噪声向特定最优解施加了影响。
研究过参数化模型,标签噪音等对随机梯度下降中的正则化作用及其影响。
Jun, 2021
我们在非凸设置下,使用均匀耗散和平滑条件对带有标签噪声的随机梯度下降(SGD)进行了泛化误差界限的研究。在合适的半度量选择下,我们建立了依赖于参数维度$d$的标签噪声随机梯度流的Wasserstein距离压缩。利用算法稳定性框架,我们推导出了具有恒定学习率的离散化算法的时间独立泛化误差界限。我们所实现的误差界限与$d$的多项式和$n^{-2/3}$的速率成多项式比例,其中$n$是样本大小。这个速率比在类似条件下使用参数无关高斯噪声的随机梯度朗之万动力学(SGLD)的已知最优速率$n^{-1/2}$更好。我们的分析提供了关于标签噪声影响的定量洞察。
Nov, 2023
在超参数化的情况下研究了一类噪声梯度下降系统的极限动力学。研究发现,噪声的结构不仅影响极限过程的形式,还影响演化的时间尺度。应用该理论比较了Dropout、标签噪声和经典SGD(小批量)噪声的演化过程,发现它们在不同的两个时间尺度上演化。这些研究结果受到神经网络训练的启发,但定理适用于任何具有非平凡零损失集的噪声梯度下降。
Apr, 2024