剖析 Adam：随机梯度的符号、大小和方差

ICMLMay, 2017

剖析 Adam：随机梯度的符号、大小和方差

Dissecting Adam: The Sign, Magnitude and Variance of Stochastic Gradients

Lukas Balles, Philipp Hennig

TL;DR研究表明，ADAM 优化器在深度学习中非常流行，但是对于泛化效果差的问题，将方差适应应用到 SGD 中会出现一种新的方法。

Abstract

The adam optimizer is exceedingly popular in the deep learning community. Often it works very well, sometimes it doesn't. Why? We interpret ADAM as a combination of two aspects: for each weight, the update direct

adam optimizer deep learning stochastic gradients variance adaptation sgd

发现论文，激发创造

噪声不是 SGD 和 Adam 在变形金刚上差距的主要因素，但是符号下降可能是

Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择，最近的研究表明，Adam 和其他启发式算法在语言任务上胜过 SGD，因为采样引起的误差分布具有重尾，我们通过对批处理大小进行进一步研究发现，Adam 在大批量设置中的行为类似于具有动量的符号下降。

Apr, 2023

标准化方向保留 Adam

本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam)，通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距，并进一步改善了分类任务中的推广性能。

Sep, 2017

探寻变形金刚为何 Adam 比 SGD 更快收敛

这篇论文提出了一种新的方向锐度概念，阐述了优化算法与更新步长的方向锐度的关系，发现随机梯度下降在这方面表现远差于自适应算法，因此建议使用坐标剪裁该问题，并证明了该技术可用于提高深度学习优化的收敛速度。

May, 2023

深度学习中随机梯度下降泛化优于 ADAM 方法的理论解释

该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差，尤其是它们在梯度噪声方面存在重尾现象；研究结果表明，SGD 相比于 ADAM 能更好地从局部最小值中逃脱，并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。

Oct, 2020

理解随机梯度下降和自适应梯度方法之间的鲁棒性差异

使用随机梯度下降和自适应梯度方法来训练深度神经网络，通过实验证明，尽管使用这些方法训练的模型的标准泛化性能之间的差异很小，但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态，并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比，解释了与自适应梯度方法训练的模型相比，使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。

Aug, 2023

随机符号下降方法：新算法和更好的理论

本文介绍了一种基于符号的压缩方法，即 Stochastic Sign Descent with Momentum（SSDM）, 用于在分布式环境下解决符号 SGD 方法的收敛问题，同时可以保持 1 位压缩和小批量大小。

May, 2019

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

深度神经网络的变分随机梯度下降

将梯度更新建模为概率模型并利用随机变分推断（SVI）推导出一种高效且有效的更新规则，该方法称为变分随机梯度下降（VSGD）优化器，相较于 Adam 和 SGD，VSGD 在两个图像分类数据集和四种深度神经网络结构上表现更优。

Apr, 2024

MaxVA：通过最大化梯度观测方差快速调整步长

本文提出一种自适应学习率原则，通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效，在机器翻译，自然语言理解和大批量预训练 BERT 方面展现出更理想的收敛行为。

Jun, 2020