通过噪声增强改善泛化能力
研究表明在拥有相同迭代次数的情况下,小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的 SGD 动态的理论解释。
Jun, 2020
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法,即在梯度中添加协方差噪声,通过对噪声矩阵的对数 Frobenius 范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能,而且不会影响优化性能以及训练时间。
Feb, 2019
本研究探讨了梯度噪声在深度学习中的正则化作用,发现除了随机梯度下降噪声外,其他类型的噪声也能有效地进行梯度下降的正则化。同时该研究提出了一种噪声下降的算法,能够拓展噪声的选择,有利于大批量 SGD 训练,同时也不会影响泛化性能。
Jun, 2019
本文研究了神经网络训练中随机梯度噪声向量的分布,发现对于批量大小为 256 或以上的数据集和架构选择,分布最好可以用高斯分布来描述,解释了随机梯度下降在神经网络训练中比梯度下降更具普适性的原因。
Oct, 2019
研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
Jun, 2020
这项研究探讨了使用深度神经网络进行行为克隆的训练不稳定性。我们观察到,尽管对行为克隆损失几乎没有影响,但训练过程中对策略网络进行的小批量随机梯度下降更新导致长时间跨度奖励出现尖锐振荡。我们通过实验证明了这些振荡的统计和计算原因,并发现它们源于小批量随机梯度下降噪声通过不稳定闭环动态的混乱传播。虽然在单步行动预测目标中,随机梯度下降噪声是无害的,但在长时间跨度中会导致灾难性的误差累积,这种效应被称为梯度方差放大。我们证明了许多标准的缓解技术并不能减轻梯度方差放大,但发现迭代的指数移动平均在减轻这种效应上非常有效。我们通过展示连续控制和自回归语言生成中的梯度方差放大现象的存在以及迭代的指数移动平均在其中的改善情况,说明了这一现象的一般性。最后,我们提供了理论实例,强调了迭代的指数移动平均在减轻梯度方差放大方面的好处,并揭示了经典凸模型对于理解深度学习中迭代平均的益处的程度。
Oct, 2023