标准化方向保留 Adam

Sep, 2017

Normalized Direction-preserving Adam

Zijun Zhang, Lin Ma, Zongpeng Li, Chuan Wu

TL;DR本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam)，通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距，并进一步改善了分类任务中的推广性能。

Abstract

adaptive optimization algorithms, such as adam and rmsprop, have shown better optimization performance than stochastic gradient descent (S

adaptive optimization algorithms adam rmsprop generalization performance dnns

发现论文，激发创造

理解随机梯度下降和自适应梯度方法之间的鲁棒性差异

使用随机梯度下降和自适应梯度方法来训练深度神经网络，通过实验证明，尽管使用这些方法训练的模型的标准泛化性能之间的差异很小，但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态，并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比，解释了与自适应梯度方法训练的模型相比，使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。

Aug, 2023

由 Adam 优化器转为 SGD 优化器提升泛化性能

提出一种混合方法 SWATS 进行训练，开头使用自适应方法 Adam，后期如果符合一定条件则切换至 SGD。实验证明，SWATS 能够缩短自适应方法和 SGD 之间的泛化差距，在多数任务上表现良好。

Dec, 2017

探寻变形金刚为何 Adam 比 SGD 更快收敛

这篇论文提出了一种新的方向锐度概念，阐述了优化算法与更新步长的方向锐度的关系，发现随机梯度下降在这方面表现远差于自适应算法，因此建议使用坐标剪裁该问题，并证明了该技术可用于提高深度学习优化的收敛速度。

May, 2023

非凸优化中 RMSProp 和 ADAM 的收敛性保证及与 Nesterov 加速的实证比较

本篇论文探讨了 ADAM 和 RMSProp 优化算法的理论性质和收敛性能，并通过实验比较了它们与 Nesterov 梯度法在多种自编码器结构和数据集上的表现，并表明调整其超参数可以获得更好的泛化性能。

Jul, 2018

同质神经网络适应性优化算法的隐含偏差

研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界，而直接在条件器中加历史平方梯度的 AdaGrad 却不行。

Dec, 2020

Adam 和随机梯度下降优化的全局最小值非收敛问题及人工神经网络训练中的局部最小值构建

在对使用 ReLU 和相关激活函数的浅层人工神经网络进行研究中，我们发现随机梯度下降（SGD）方法（如纯独立 SGD、动量 SGD、AdaGrad、RMSprop 和 Adam 优化器）高概率无法收敛到全局最小值，并证实了 ANN 训练问题的优化空间中存在具有不同风险值的局部最小值的分层结构。

Feb, 2024

剖析 Adam：随机梯度的符号、大小和方差

研究表明，ADAM 优化器在深度学习中非常流行，但是对于泛化效果差的问题，将方差适应应用到 SGD 中会出现一种新的方法。

May, 2017

Adam 与训练策略如何帮助 BNNs 优化？

研究二进制神经网络使用 Adam 优化相对于 SGD 优化的优势，发现 Adam 通过其自适应学习率策略更好地处理 BNN 的崎岖损失表面，并得到更好的优化结果。通过分析发现，Adam 的二阶动量正则化效应对于使 BNN 中由于激活饱和而死亡的权重重振是至关重要的，并探究了实值权重在二进制网络中的有趣作用以及权重衰减对 BNN 优化的影响。最终，我们提出了一个基于 Adam 优化的简单训练方案，使用相同的架构比最先进的 ReActNet 实现了 1.1％更高的 top-1 准确度（70.5％）。

Jun, 2021

深度学习中随机梯度下降泛化优于 ADAM 方法的理论解释

该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差，尤其是它们在梯度噪声方面存在重尾现象；研究结果表明，SGD 相比于 ADAM 能更好地从局部最小值中逃脱，并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。

Oct, 2020

机器学习中自适应梯度方法的边际价值

本文研究了使用自适应优化方法训练深度神经网络的表现，提出了一些简单超参数问题，发现自适应方法得到的结果往往比梯度下降方法差，甚至可能导致结果更糟糕，建议实践者重新考虑使用自适应方法训练神经网络。

May, 2017