通过关键动量促进记忆增量 Adam 中的探索

Jul, 2023

通过关键动量促进记忆增量 Adam 中的探索

Promoting Exploration in Memory-Augmented Adam using Critical Momenta

Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang...

TL;DR提出了一种新的 Adam 的记忆增强版本，通过在训练过程中使用关键动量项的缓冲区，推动探索更平坦的最小值，从而提高了标准监督语言建模和图像分类任务的性能。

Abstract

adaptive gradient-based optimizers, particularly adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast →

adaptive gradient-based optimizers adam convergence hyperparameter memory-augmented version

发现论文，激发创造

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

自适应惯性：解离自适应学习率和动量的影响

通过研究神经网络中的优化算法，提出了一个名为 “自适应惯性” 的新方法，能够更好地训练神经网络并提高泛化性能。

Jun, 2020

CAME：基于置信度的自适应内存高效优化

本研究提出了一种同时具有传统自适应方法快速收敛和内存高效方法的名为 CAME 的优化器，实验证明它在 NLP 任务中很稳定并具有更高的性能。

Jul, 2023

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

AdaX: 指数长期记忆的自适应梯度下降

本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值，为解决这一问题，我们提出了 AdaX 算法，与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息，实现自适应调节学习率，同时本文也证明了 AdaX 算法在凸性和非凸性情景下均能收敛，实验结果表明 AdaX 在计算机视觉和自然语言处理等多个任务上的表现优于 Adam，且能够与随机梯度下降 (SGD) 保持一致。

Apr, 2020

自适应梯度方法训练深度神经网络中泛化缺口的解决

本研究设计了一个新算法，称为部分自适应动量估计方法，通过引入部分自适应参数 $p$，将 Adam/Amsgrad 与 SGD 统一起来，以实现从两个世界中获得最佳结果，并在随机非凸优化设置下证明了我们提出的算法的收敛速度。实验结果表明，与 SGD 一样，我们的算法可以在训练深度神经网络时维持快速的收敛率，并且可以像 Adam/Amsgrad 一样进行泛化，这些结果表明从此前的研究中看出，重视使用自适应梯度方法可以有效加速深度神经网络的训练。

Jun, 2018

MADA: 元适应优化器通过超梯度下降

本研究提出了 Meta-Adaptive Optimizers（MADA），一个统一的优化器框架，它能够泛化多种已知的优化器，并在训练过程中动态学习最合适的优化器。数值结果表明，MADA 对亚优化的超参数具有鲁棒性，并且即使在调优超参数的情况下，它通常优于 Adam、Lion 和 Adan。同时，我们还提出了 AVGrad，它是 AMSGrad 的一种变体，在 MADA 中表现更好。最后，我们提供了收敛性分析，显示优化器的插值（特别是 AVGrad 和 Adam）可以改善它们的误差界限（在常数上），暗示了元优化器的优势。

Jan, 2024

一种自适应瞬时边界方法用于随机学习

本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题，实现深度神经网络的稳定而高效训练，对于复杂网络，如 DenseNet 和 Transformer，与 Adam 方法相比，AdaMod 方法带来了显著的改进。

Oct, 2019

怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权

我们提出了一种称为 Nostalgic Adam（NosAdam）的算法，通过更多考虑过去的梯度并设计自适应学习率，解决了类似于 Adam 的算法中缺乏长期记忆的问题，并在最佳已知收敛率下具有理论上的收敛保证。

May, 2018