由 Adam 优化器转为 SGD 优化器提升泛化性能
本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam),通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距,并进一步改善了分类任务中的推广性能。
Sep, 2017
使用随机梯度下降和自适应梯度方法来训练深度神经网络,通过实验证明,尽管使用这些方法训练的模型的标准泛化性能之间的差异很小,但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态,并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比,解释了与自适应梯度方法训练的模型相比,使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。
Aug, 2023
这篇论文提出了一种新的方向锐度概念,阐述了优化算法与更新步长的方向锐度的关系,发现随机梯度下降在这方面表现远差于自适应算法,因此建议使用坐标剪裁该问题,并证明了该技术可用于提高深度学习优化的收敛速度。
May, 2023
比较了在视觉 Transformer 和 ConvNeXt 模型微调时,SGD 和 AdamW 两种最常用的优化器的表现,发现当微调梯度在第一个 embedding 层中远大于其余模型时,使用 AdamW 可以比 SGD 取得更好的表现,但是冻结这个层以后,SGD 的表现可以达到和 AdamW 相当甚至更优秀,也能节省更多的内存。这一结论在五种区分性偏移测试中都获得了最佳表现。
Nov, 2022
该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD 相比于 ADAM 能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。
Oct, 2020
本研究设计了一个新算法,称为部分自适应动量估计方法,通过引入部分自适应参数 $p$,将 Adam/Amsgrad 与 SGD 统一起来,以实现从两个世界中获得最佳结果,并在随机非凸优化设置下证明了我们提出的算法的收敛速度。实验结果表明,与 SGD 一样,我们的算法可以在训练深度神经网络时维持快速的收敛率,并且可以像 Adam/Amsgrad 一样进行泛化,这些结果表明从此前的研究中看出,重视使用自适应梯度方法可以有效加速深度神经网络的训练。
Jun, 2018
本文研究了使用自适应优化方法训练深度神经网络的表现,提出了一些简单超参数问题,发现自适应方法得到的结果往往比梯度下降方法差,甚至可能导致结果更糟糕,建议实践者重新考虑使用自适应方法训练神经网络。
May, 2017
通过对自适应方法的简要分析,我们提出了 AvaGrad - 一种优化器,当其适应性调整得当时,其性能优于视觉任务中的 SGD。我们观察到我们方法的效果部分是由学习率和适应性的解耦实现,从而简化了超参数搜索。实践证明 AvaGrad 匹配了现有任何优化器(SGD 或自适应)在图像分类(CIFAR,ImageNet)和字符级语言建模(Penn Treebank)任务中提供的最佳结果。
Dec, 2019
在对使用 ReLU 和相关激活函数的浅层人工神经网络进行研究中,我们发现随机梯度下降(SGD)方法(如纯独立 SGD、动量 SGD、AdaGrad、RMSprop 和 Adam 优化器)高概率无法收敛到全局最小值,并证实了 ANN 训练问题的优化空间中存在具有不同风险值的局部最小值的分层结构。
Feb, 2024
Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择,最近的研究表明,Adam 和其他启发式算法在语言任务上胜过 SGD,因为采样引起的误差分布具有重尾,我们通过对批处理大小进行进一步研究发现,Adam 在大批量设置中的行为类似于具有动量的符号下降。
Apr, 2023