大规模机器学习 Adam 不稳定性理论

Apr, 2023

大规模机器学习 Adam 不稳定性理论

A Theory on Adam Instability in Large-Scale Machine Learning

Igor Molybog, Peter Albert, Moya Chen, Zachary DeVito, David Esiobu...

TL;DR本文提出了一个关于大型语言模型训练中先前无法解释的发散行为的理论。该理论说明这一现象是优化算法 Adam 的副作用。通过观察该算法的参数更新向量和训练损失方向的相关性，我们得出这一结论，并给出了不同规模语言模型的训练观察结果。

Abstract

We present a theory for the previously unexplained divergent behavior noticed in the training of large language models. We argue that the phenomenon is an artifact of the dominant optimization algorithm used for

large language models training optimization adam algorithm divergent behavior deep learning

发现论文，激发创造

重尾类不平衡问题及 Adam 在语言模型上的优越性

Adam 优化算法在大型语言模型上的性能明显优于梯度下降算法，主要原因是语言建模任务中存在的类别不平衡导致优化动态困难。

Feb, 2024

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

剖析 Adam：随机梯度的符号、大小和方差

研究表明，ADAM 优化器在深度学习中非常流行，但是对于泛化效果差的问题，将方差适应应用到 SGD 中会出现一种新的方法。

May, 2017

噪声不是 SGD 和 Adam 在变形金刚上差距的主要因素，但是符号下降可能是

Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择，最近的研究表明，Adam 和其他启发式算法在语言任务上胜过 SGD，因为采样引起的误差分布具有重尾，我们通过对批处理大小进行进一步研究发现，Adam 在大批量设置中的行为类似于具有动量的符号下降。

Apr, 2023

AdamL：一种快速自适应梯度方法，融合损失函数

通过考虑损失函数信息以获得更好的泛化结果，我们提出了一种 AdamL 优化算法，该算法是 Adam 优化器的一种新变体。我们提供了足够的条件，以及 Polyak-Lojasiewicz 不等式，确保了 AdamL 的线性收敛性。与此分析的副产品，我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明，与 Adam、EAdam 和 AdaBelief 相比，AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时，如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络，这些卓越的性能得到了证实。最后，在普通卷积神经网络的情况下，AdamL 优于其他 Adam 的变体，并且在训练的后期阶段不需要手动调整学习率。

Dec, 2023

损失函数中存在奇异点

通过实验证明，随着数据集的规模增大，损失梯度的大小会形成一个奇点，梯度下降算法将迅速将神经网络接近该奇点，并且进一步的训练发生在该奇点附近。该奇点解释了神经网络损失函数 Hessian 矩阵的各种现象，如在稳定性的边缘进行训练和梯度在顶部子空间中的集中。一旦神经网络接近奇点，顶部子空间对学习的贡献很小，即使它构成了大部分梯度。

Jan, 2022

探寻变形金刚为何 Adam 比 SGD 更快收敛

这篇论文提出了一种新的方向锐度概念，阐述了优化算法与更新步长的方向锐度的关系，发现随机梯度下降在这方面表现远差于自适应算法，因此建议使用坐标剪裁该问题，并证明了该技术可用于提高深度学习优化的收敛速度。

May, 2023

大规模 Transformer 训练不稳定性的小规模代理

在本文中，我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法，重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源，并研究了学习率、优化器和模型干预对最终损失的敏感性的影响，以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。

Sep, 2023

Adam 算法在可分数据上的隐含偏差

当训练数据是线性可分的时候，Adam 会收敛到一个线性分类器，能够达到最大的 l∞- 边界，并且此收敛在多项式时间内发生，这一结果从理论角度揭示了 Adam 和（随机）梯度下降之间的差异。

Jun, 2024