理解随机梯度下降和自适应梯度方法之间的鲁棒性差异

Aug, 2023

理解随机梯度下降和自适应梯度方法之间的鲁棒性差异

Understanding the robustness difference between stochastic gradient descent and adaptive gradient methods

Avery Ma, Yangchen Pan, Amir-massoud Farahmand

TL;DR使用随机梯度下降和自适应梯度方法来训练深度神经网络，通过实验证明，尽管使用这些方法训练的模型的标准泛化性能之间的差异很小，但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态，并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比，解释了与自适应梯度方法训练的模型相比，使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。

Abstract

stochastic gradient descent (SGD) and adaptive gradient methods, such as Adam and RMSProp, have been widely used in training deep neural networks. We empirically show that while the difference between the standar

stochastic gradient descent adaptive gradient methods robustness irrelevant frequencies lipschitz constants

发现论文，激发创造

机器学习中自适应梯度方法的边际价值

本文研究了使用自适应优化方法训练深度神经网络的表现，提出了一些简单超参数问题，发现自适应方法得到的结果往往比梯度下降方法差，甚至可能导致结果更糟糕，建议实践者重新考虑使用自适应方法训练神经网络。

May, 2017

标准化方向保留 Adam

本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam)，通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距，并进一步改善了分类任务中的推广性能。

Sep, 2017

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

深度学习中随机梯度下降泛化优于 ADAM 方法的理论解释

该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差，尤其是它们在梯度噪声方面存在重尾现象；研究结果表明，SGD 相比于 ADAM 能更好地从局部最小值中逃脱，并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。

Oct, 2020

偏见自适应随机逼近的非渐近分析

本研究通过非渐进性分析，探讨具有偏倚梯度和自适应步长的随机梯度下降算法，包括时间依赖的偏倚和梯度估计器的均方误差控制，结果表明带偏倚梯度的 Adagrad 和 RMSProp 算法收敛速率与无偏情况下的结果相似，实验结果进一步验证了收敛性，并展示了通过适当的超参数调整可以减少偏倚影响的能力。

Feb, 2024

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

由 Adam 优化器转为 SGD 优化器提升泛化性能

提出一种混合方法 SWATS 进行训练，开头使用自适应方法 Adam，后期如果符合一定条件则切换至 SGD。实验证明，SWATS 能够缩短自适应方法和 SGD 之间的泛化差距，在多数任务上表现良好。

Dec, 2017

同质神经网络适应性优化算法的隐含偏差

研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界，而直接在条件器中加历史平方梯度的 AdaGrad 却不行。

Dec, 2020

噪声不是 SGD 和 Adam 在变形金刚上差距的主要因素，但是符号下降可能是

Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择，最近的研究表明，Adam 和其他启发式算法在语言任务上胜过 SGD，因为采样引起的误差分布具有重尾，我们通过对批处理大小进行进一步研究发现，Adam 在大批量设置中的行为类似于具有动量的符号下降。

Apr, 2023

训练更快，泛化更好：随机梯度下降的稳定性

本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差，提供了新的对于随机梯度方法多周期泛化性能好的解释，对于神经网络的训练也有新的稳定性解释。

Sep, 2015