探寻变形金刚为何 Adam 比 SGD 更快收敛

May, 2023

探寻变形金刚为何 Adam 比 SGD 更快收敛

Toward Understanding Why Adam Converges Faster Than SGD for Transformers

Yan Pan, Yuanzhi Li

TL;DR这篇论文提出了一种新的方向锐度概念，阐述了优化算法与更新步长的方向锐度的关系，发现随机梯度下降在这方面表现远差于自适应算法，因此建议使用坐标剪裁该问题，并证明了该技术可用于提高深度学习优化的收敛速度。

Abstract

While stochastic gradient descent (SGD) is still the most popular optimization algorithm in deep learning, adaptive algorithms such as adam have established empirical advantages over SGD in some deep learning app

stochastic gradient descent adam directional sharpness coordinate-wise clipping deep learning optimization

发现论文，激发创造

自适应方法对注意力模型有什么好处？

本研究表明，一种重尾梯度噪声是 SGD 性能不佳的原因之一，而剪辑梯度可应用于 BERT 预训练和微调任务中，以提高性能。

Dec, 2019

深度学习中随机梯度下降泛化优于 ADAM 方法的理论解释

该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差，尤其是它们在梯度噪声方面存在重尾现象；研究结果表明，SGD 相比于 ADAM 能更好地从局部最小值中逃脱，并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。

Oct, 2020

标准化方向保留 Adam

本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam)，通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距，并进一步改善了分类任务中的推广性能。

Sep, 2017

噪声不是 SGD 和 Adam 在变形金刚上差距的主要因素，但是符号下降可能是

Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择，最近的研究表明，Adam 和其他启发式算法在语言任务上胜过 SGD，因为采样引起的误差分布具有重尾，我们通过对批处理大小进行进一步研究发现，Adam 在大批量设置中的行为类似于具有动量的符号下降。

Apr, 2023

剖析 Adam：随机梯度的符号、大小和方差

研究表明，ADAM 优化器在深度学习中非常流行，但是对于泛化效果差的问题，将方差适应应用到 SGD 中会出现一种新的方法。

May, 2017

由 Adam 优化器转为 SGD 优化器提升泛化性能

提出一种混合方法 SWATS 进行训练，开头使用自适应方法 Adam，后期如果符合一定条件则切换至 SGD。实验证明，SWATS 能够缩短自适应方法和 SGD 之间的泛化差距，在多数任务上表现良好。

Dec, 2017

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

基于共轭梯度的 Adam 算法用于随机优化及其在深度学习中的应用

本文提出了一个混合 Adam 和非线性共轭梯度方法的共轭梯度 Adam 算法，并展示其收敛分析。在文本分类和图像分类上的数值实验表明，该算法可以在比现有的自适应随机优化算法更少的时代数内训练深度神经网络模型。

Feb, 2020

如何使用 SGD 微调视觉模型

比较了在视觉 Transformer 和 ConvNeXt 模型微调时，SGD 和 AdamW 两种最常用的优化器的表现，发现当微调梯度在第一个 embedding 层中远大于其余模型时，使用 AdamW 可以比 SGD 取得更好的表现，但是冻结这个层以后，SGD 的表现可以达到和 AdamW 相当甚至更优秀，也能节省更多的内存。这一结论在五种区分性偏移测试中都获得了最佳表现。

Nov, 2022