WarpAdam:一种基于元学习方法的新型Adam优化器
本文提出了一种称为“WarpGrad”的方法,它通过交错使用非线性层次条件,通过元学习一个有效参数化的预处理矩阵来促进跨任务分布梯度下降,从而与现有方法相比解决了存在的问题,包括few- shot、标准监督、连续和强化学习。
Aug, 2019
本文发现Adam算法的快速收敛可能会导致算法陷入局部极小值,为解决这一问题,我们提出了AdaX算法,与Adam不同之处在于AdaX能够在训练过程中积累过去的梯度信息,实现自适应调节学习率,同时本文也证明了AdaX算法在凸性和非凸性情景下均能收敛,实验结果表明AdaX在计算机视觉和自然语言处理等多个任务上的表现优于Adam,且能够与随机梯度下降(SGD)保持一致。
Apr, 2020
本文介绍了一种使用MTAdam优化算法来平衡神经模型训练中的多个损失项的方法,使用这种方法可以可以在所有层次上平衡梯度大小,快速恢复从次优初始损失权重开始的训练结果,并且得出的训练结果符合传统方法每种超参数的规定。
Jun, 2020
提出了一种快速且普适的自适应梯度优化算法超级Adam,能够用于解决通用的问题,结合了动量和方差缩小技术,并提供了自适应梯度方法在非凸条件下的收敛分析支持,理论上证明了算法能达到当前最低梯度级别(即随机一阶Oracle(SFO))复杂度找到非凸优化的ε-稳定点。实验结果验证了算法优于现有的自适应算法。
Jun, 2021
本研究通过对Adam优化器家族进行分析,提出了一种适用于包括min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法,并证明了使用随机梯度估计器的方差减少结果。
Dec, 2021
提出了一种新的Adam的记忆增强版本,通过在训练过程中使用关键动量项的缓冲区,推动探索更平坦的最小值,从而提高了标准监督语言建模和图像分类任务的性能。
Jul, 2023
该研究论文介绍了深度学习优化领域中的StochGradAdam优化器,它是Adam算法的一种新变体,核心是梯度采样技术。该方法不仅确保了稳定的收敛性,还充分利用了选择性梯度考虑的优势,通过减轻嘈杂或异常数据的影响以及增强损失函数空间的探索,提高了可靠性收敛。在图像分类和分割任务中,StochGradAdam优化器表现出优越的性能,相较于传统的Adam优化器。通过在每次迭代中精确采样一部分梯度,该优化器被优化用于管理复杂模型。该论文全面探讨了StochGradAdam的方法论,从数学基础到偏差校正策略,为深度学习训练技术的有望进展铺平了道路。
Oct, 2023
本研究提出了Meta-Adaptive Optimizers(MADA),一个统一的优化器框架,它能够泛化多种已知的优化器,并在训练过程中动态学习最合适的优化器。数值结果表明,MADA 对亚优化的超参数具有鲁棒性,并且即使在调优超参数的情况下,它通常优于 Adam、Lion 和 Adan。同时,我们还提出了 AVGrad,它是 AMSGrad 的一种变体,在 MADA 中表现更好。最后,我们提供了收敛性分析,显示优化器的插值(特别是 AVGrad 和 Adam)可以改善它们的误差界限(在常数上),暗示了元优化器的优势。
Jan, 2024