通过噪声增强改善泛化能力

Sep, 2020

Improved generalization by noise enhancement

Takashi Mori, Masahito Ueda

TL;DR本文提出了一种名为'noise enhancement'的方法，可有效控制随机梯度下降中的噪声，进而提高训练的泛化性能，实验证明，其比小批量训练的效果更佳。

Abstract

Recent studies have demonstrated that noise in stochastic gradient descent (SGD) is closely related to generalization: A larger SGD noise, if not too large, results in better →

发现论文，激发创造

大批次随机梯度下降与结构协方差噪声的实证研究

本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法，即在梯度中添加协方差噪声，通过对噪声矩阵的对数Frobenius范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能，而且不会影响优化性能以及训练时间。

Feb, 2019

关于噪声梯度下降泛化为随机梯度下降的研究

本研究探讨了梯度噪声在深度学习中的正则化作用，发现除了随机梯度下降噪声外，其他类型的噪声也能有效地进行梯度下降的正则化。同时该研究提出了一种噪声下降的算法，能够拓展噪声的选择，有利于大批量SGD训练，同时也不会影响泛化性能。

Jun, 2019

随机梯度噪声的非高斯性

本文研究了神经网络训练中随机梯度噪声向量的分布，发现对于批量大小为256或以上的数据集和架构选择，分布最好可以用高斯分布来描述，解释了随机梯度下降在神经网络训练中比梯度下降更具普适性的原因。

Oct, 2019

形状对噪声协方差隐式偏差的影响

本文中，我们理论上证明了随机梯度下降法（SGD）中参数相关噪声（由小批量或标签扰动引起）比高斯噪声更加有效，并且具有对训练过度参数化模型的重要隐式正则化效应。

Jun, 2020

随机梯度下降中噪声的泛化益处

研究表明在拥有相同迭代次数的情况下，小或适中大小的batch在测试集上比非常大的batch具有更好的表现，同时研究如何随着预算增长而改变最佳学习率计划，并提供一个基于随机微分方程的SGD动态的理论解释。

Jun, 2020

SGD优于GD在泛化方面（正则化没有帮助）

本文研究了随机梯度下降和全样本梯度下降在随机凸优化模型中泛化性能的分离问题，发现经典的全样本梯度下降算法在步数相同的情况下会出现过拟合且通常需要更多的步数才能与随机梯度下降算法获得类似的泛化性能。同时本文还探讨了正则化、稳定性和隐含偏差等概念在泛化中的作用。

Feb, 2021

随机梯度下降中小批量噪声的强度

分析随机梯度下降中，小批量抽样引起的噪声和波动，揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律，并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。

Feb, 2021

标签噪声SGD可证明偏爱扁平化全局最小值

研究过参数化模型，标签噪音等对随机梯度下降中的正则化作用及其影响。

Jun, 2021

反相关噪声注入以提高泛化性能

本文探讨了在机器学习模型训练中注入人工噪声以提高性能的问题，并发现相比于无相关噪声和有相关噪声的方法，采用反相关噪声的梯度下降方法（Anti-PGD）能够更好地推广至新数据集上，这一发现为利用噪声进行机器学习模型训练提供了新的思路。

Feb, 2022

梯度下降法与噪声注入的奇异极限分析

在超参数化的情况下研究了一类噪声梯度下降系统的极限动力学。研究发现，噪声的结构不仅影响极限过程的形式，还影响演化的时间尺度。应用该理论比较了Dropout、标签噪声和经典SGD（小批量）噪声的演化过程，发现它们在不同的两个时间尺度上演化。这些研究结果受到神经网络训练的启发，但定理适用于任何具有非平凡零损失集的噪声梯度下降。

Apr, 2024