基于时代的随机梯度下降中的相关噪声:对权重方差的影响
我们研究了合成高斯数据中单层和双层线性神经网络在随机梯度下降(SGD)的持续(末期)训练阶段。我们发现,在过度采样不足的弱过采样范围内,单层网络的噪声协方差矩阵的谱明显偏离 Hessian,可归因于 SGD 动力学的详细平衡破坏。在这种情况下,权重波动一般是各向异性的,但经历各向同性的损失。对于双层网络,我们获得了各层权重的随机动力学,并分析了相关的稳定的协方差。我们将层间耦合确定为权重波动的新源头。与单层情况不同,权重波动经历了各向异性的损失,其平坦度与波动方差成反比。因此,我们在深度线性网络模型中提供了最近观察到的逆方差 - 平坦度关系的分析推导。
Nov, 2023
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
Jun, 2020
本文介绍了一种基于降低历史梯度方差的新型优化方法,通过引入自适应权重来增强 SGD 的一阶时刻估计,在深度学习模型训练过程中动态改变权重以适应梯度方差的变化,实验结果表明该方法能够达到与现有优化方法相媲美的性能。
Nov, 2023
这项研究探讨了使用深度神经网络进行行为克隆的训练不稳定性。我们观察到,尽管对行为克隆损失几乎没有影响,但训练过程中对策略网络进行的小批量随机梯度下降更新导致长时间跨度奖励出现尖锐振荡。我们通过实验证明了这些振荡的统计和计算原因,并发现它们源于小批量随机梯度下降噪声通过不稳定闭环动态的混乱传播。虽然在单步行动预测目标中,随机梯度下降噪声是无害的,但在长时间跨度中会导致灾难性的误差累积,这种效应被称为梯度方差放大。我们证明了许多标准的缓解技术并不能减轻梯度方差放大,但发现迭代的指数移动平均在减轻这种效应上非常有效。我们通过展示连续控制和自回归语言生成中的梯度方差放大现象的存在以及迭代的指数移动平均在其中的改善情况,说明了这一现象的一般性。最后,我们提供了理论实例,强调了迭代的指数移动平均在减轻梯度方差放大方面的好处,并揭示了经典凸模型对于理解深度学习中迭代平均的益处的程度。
Oct, 2023
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间 SGD 在二次损失函数中的稳态分布,讨论了其影响,并考虑了 SGD 变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和 Adam 的二阶方法的稳态协方差等应用。
Dec, 2020
本文提出了一种名为 'noise enhancement' 的方法,可有效控制随机梯度下降中的噪声,进而提高训练的泛化性能,实验证明,其比小批量训练的效果更佳。
Sep, 2020
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
Jun, 2019
本文研究了神经网络训练中随机梯度噪声向量的分布,发现对于批量大小为 256 或以上的数据集和架构选择,分布最好可以用高斯分布来描述,解释了随机梯度下降在神经网络训练中比梯度下降更具普适性的原因。
Oct, 2019
本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法,即在梯度中添加协方差噪声,通过对噪声矩阵的对数 Frobenius 范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能,而且不会影响优化性能以及训练时间。
Feb, 2019