本研究表明,一种重尾梯度噪声是 SGD 性能不佳的原因之一,而剪辑梯度可应用于 BERT 预训练和微调任务中,以提高性能。
Dec, 2019
该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD 相比于 ADAM 能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。
Oct, 2020
本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam),通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距,并进一步改善了分类任务中的推广性能。
Sep, 2017
Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择,最近的研究表明,Adam 和其他启发式算法在语言任务上胜过 SGD,因为采样引起的误差分布具有重尾,我们通过对批处理大小进行进一步研究发现,Adam 在大批量设置中的行为类似于具有动量的符号下降。
Apr, 2023
研究表明,ADAM 优化器在深度学习中非常流行,但是对于泛化效果差的问题,将方差适应应用到 SGD 中会出现一种新的方法。
May, 2017
提出一种混合方法 SWATS 进行训练,开头使用自适应方法 Adam,后期如果符合一定条件则切换至 SGD。实验证明,SWATS 能够缩短自适应方法和 SGD 之间的泛化差距,在多数任务上表现良好。
Dec, 2017
通过给 Adam 算法加上‘长期记忆’过去梯度的方法,不仅可以解决收敛问题,而且经常提高算法的实验性能。
Apr, 2019
在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下,研究了 Adam 算法的理论性质,证明了它能够以高概率在多项式时间复杂度内找到一个稳定点,同时具有较好的自适应性能。
Feb, 2024
本文提出了一个混合 Adam 和非线性共轭梯度方法的共轭梯度 Adam 算法,并展示其收敛分析。在文本分类和图像分类上的数值实验表明,该算法可以在比现有的自适应随机优化算法更少的时代数内训练深度神经网络模型。
Feb, 2020
比较了在视觉 Transformer 和 ConvNeXt 模型微调时,SGD 和 AdamW 两种最常用的优化器的表现,发现当微调梯度在第一个 embedding 层中远大于其余模型时,使用 AdamW 可以比 SGD 取得更好的表现,但是冻结这个层以后,SGD 的表现可以达到和 AdamW 相当甚至更优秀,也能节省更多的内存。这一结论在五种区分性偏移测试中都获得了最佳表现。
Nov, 2022