无损适应性：一种带有动量化、自适应、双平均随机梯度优化方法

Jan, 2021

无损适应性：一种带有动量化、自适应、双平均随机梯度优化方法

Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization

Aaron Defazio, Samy Jelassi

TL;DR引入了 MADGRAD 优化方法，其表现优异，不仅适用于视觉领域中的分类和图像转换任务，还适用于自然语言处理中的循环和双向掩蔽模型。在每个任务中，MADGRAD 的测试结果均优于 SGD 和 ADAM，并且在自适应方法通常表现差的问题上也表现出色。

Abstract

We introduce madgrad, a novel optimization method in the family of adagrad adaptive gradient methods. →

optimization deep learning madgrad adagrad adaptive methods

发现论文，激发创造

MADA: 元适应优化器通过超梯度下降

本研究提出了 Meta-Adaptive Optimizers（MADA），一个统一的优化器框架，它能够泛化多种已知的优化器，并在训练过程中动态学习最合适的优化器。数值结果表明，MADA 对亚优化的超参数具有鲁棒性，并且即使在调优超参数的情况下，它通常优于 Adam、Lion 和 Adan。同时，我们还提出了 AVGrad，它是 AMSGrad 的一种变体，在 MADA 中表现更好。最后，我们提供了收敛性分析，显示优化器的插值（特别是 AVGrad 和 Adam）可以改善它们的误差界限（在常数上），暗示了元优化器的优势。

Jan, 2024

机器学习中自适应梯度方法的边际价值

本文研究了使用自适应优化方法训练深度神经网络的表现，提出了一些简单超参数问题，发现自适应方法得到的结果往往比梯度下降方法差，甚至可能导致结果更糟糕，建议实践者重新考虑使用自适应方法训练神经网络。

May, 2017

自适应带动量的 SGD 高概率分析

本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析，证明了在弱假设条件下，Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。

Jul, 2020

一种自适应瞬时边界方法用于随机学习

本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题，实现深度神经网络的稳定而高效训练，对于复杂网络，如 DenseNet 和 Transformer，与 Adam 方法相比，AdaMod 方法带来了显著的改进。

Oct, 2019

自适应方法的领域无关主导性

通过对自适应方法的简要分析，我们提出了 AvaGrad - 一种优化器，当其适应性调整得当时，其性能优于视觉任务中的 SGD。我们观察到我们方法的效果部分是由学习率和适应性的解耦实现，从而简化了超参数搜索。实践证明 AvaGrad 匹配了现有任何优化器（SGD 或自适应）在图像分类（CIFAR，ImageNet）和字符级语言建模（Penn Treebank）任务中提供的最佳结果。

Dec, 2019

使用逐层自适应动量的随机梯度方法用于深度神经网络的训练

本文提出了一种自适应随机梯度下降算法 NovoGrad，具有分层梯度归一化和分离的权重衰减，模型在图像分类、语音识别、机器翻译和语言模型等领域中的表现优于标准的随机梯度下降算法 SGD 与 Adam（优化算法），同时具有较好的鲁棒性、适用于大批量的训练，并且更省内存。

May, 2019

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

ZO-AdaMM：零阶自适应动量方法用于黑盒优化

该研究提出了一种名为 ZO-AdaMM 的零阶梯度黑盒优化方法，它将 AdaMM 通用于无梯度形式的场景，并阐述了它的收敛率问题以及在非凸约束优化问题中的适用性，最终通过 ImageNet 数据的两个实验应用证明了 ZO-AdaMM 的高精确度和快速收敛能力。

Oct, 2019

SUPER-ADAM：自适应梯度的更快、更通用的框架

提出了一种快速且普适的自适应梯度优化算法超级 Adam，能够用于解决通用的问题，结合了动量和方差缩小技术，并提供了自适应梯度方法在非凸条件下的收敛分析支持，理论上证明了算法能达到当前最低梯度级别（即随机一阶 Oracle（SFO））复杂度找到非凸优化的 ε- 稳定点。实验结果验证了算法优于现有的自适应算法。

Jun, 2021

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014