WarpAdam：一种基于元学习方法的新型Adam优化器

Sep, 2024

WarpAdam：一种基于元学习方法的新型Adam优化器

WarpAdam: A new Adam optimizer based on Meta-Learning approach

Chengxi Pan, Junshang Chen, Jingrui Ye

TL;DR本研究解决了优化算法在深度学习模型训练中适应性不足的问题，通过将“扭曲梯度下降”概念融入Adam优化器中，提出了一种新的优化策略。实验结果表明，该方法在不同数据集的适应性和优化性能上优于传统的Adam优化器。

Abstract

Optimal selection of Optimization algorithms is crucial for training Deep Learning models. The Adam Optimizer has gained significant atten

发现论文，激发创造

Adam及其发展的收敛性研究

通过给Adam算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

使用扭曲梯度下降的元学习

本文提出了一种称为“WarpGrad”的方法，它通过交错使用非线性层次条件，通过元学习一个有效参数化的预处理矩阵来促进跨任务分布梯度下降，从而与现有方法相比解决了存在的问题，包括few- shot、标准监督、连续和强化学习。

Aug, 2019

优化器基准测试需考虑超参数调整

本文的研究结果表明，Adam优化器是一种实用的解决方案，尤其在低预算场景中，因为评估不同优化器的性能必须考虑到超参数搜索的计算成本和难度。

Oct, 2019

AdaX: 指数长期记忆的自适应梯度下降

本文发现Adam算法的快速收敛可能会导致算法陷入局部极小值，为解决这一问题，我们提出了AdaX算法，与Adam不同之处在于AdaX能够在训练过程中积累过去的梯度信息，实现自适应调节学习率，同时本文也证明了AdaX算法在凸性和非凸性情景下均能收敛，实验结果表明AdaX在计算机视觉和自然语言处理等多个任务上的表现优于Adam，且能够与随机梯度下降(SGD)保持一致。

Apr, 2020

MTAdam: 多训练损失自动平衡

本文介绍了一种使用MTAdam优化算法来平衡神经模型训练中的多个损失项的方法，使用这种方法可以可以在所有层次上平衡梯度大小，快速恢复从次优初始损失权重开始的训练结果，并且得出的训练结果符合传统方法每种超参数的规定。

Jun, 2020

SUPER-ADAM：自适应梯度的更快、更通用的框架

提出了一种快速且普适的自适应梯度优化算法超级Adam，能够用于解决通用的问题，结合了动量和方差缩小技术，并提供了自适应梯度方法在非凸条件下的收敛分析支持，理论上证明了算法能达到当前最低梯度级别（即随机一阶Oracle（SFO））复杂度找到非凸优化的ε-稳定点。实验结果验证了算法优于现有的自适应算法。

Jun, 2021

Adam系列算法的新收敛分析

本研究通过对Adam优化器家族进行分析，提出了一种适用于包括min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法，并证明了使用随机梯度估计器的方差减少结果。

Dec, 2021

通过关键动量促进记忆增量Adam中的探索

提出了一种新的Adam的记忆增强版本，通过在训练过程中使用关键动量项的缓冲区，推动探索更平坦的最小值，从而提高了标准监督语言建模和图像分类任务的性能。

Jul, 2023

StochGradAdam：利用随机梯度采样加速神经网络训练

该研究论文介绍了深度学习优化领域中的StochGradAdam优化器，它是Adam算法的一种新变体，核心是梯度采样技术。该方法不仅确保了稳定的收敛性，还充分利用了选择性梯度考虑的优势，通过减轻嘈杂或异常数据的影响以及增强损失函数空间的探索，提高了可靠性收敛。在图像分类和分割任务中，StochGradAdam优化器表现出优越的性能，相较于传统的Adam优化器。通过在每次迭代中精确采样一部分梯度，该优化器被优化用于管理复杂模型。该论文全面探讨了StochGradAdam的方法论，从数学基础到偏差校正策略，为深度学习训练技术的有望进展铺平了道路。

Oct, 2023

MADA: 元适应优化器通过超梯度下降

本研究提出了Meta-Adaptive Optimizers（MADA），一个统一的优化器框架，它能够泛化多种已知的优化器，并在训练过程中动态学习最合适的优化器。数值结果表明，MADA 对亚优化的超参数具有鲁棒性，并且即使在调优超参数的情况下，它通常优于 Adam、Lion 和 Adan。同时，我们还提出了 AVGrad，它是 AMSGrad 的一种变体，在 MADA 中表现更好。最后，我们提供了收敛性分析，显示优化器的插值（特别是 AVGrad 和 Adam）可以改善它们的误差界限（在常数上），暗示了元优化器的优势。

Jan, 2024