XGrad：利用权重预测增强基于梯度的优化器

May, 2023

XGrad：利用权重预测增强基于梯度的优化器

XGrad: Boosting Gradient-Based Optimizers With Weight Prediction

Lei Guan, Dongsheng Li, Jian Meng, Yanqi Shi

TL;DR本文提出了一种基于权重预测的深度学习框架 XGrad，通过引入优化器更新规则的未来权重来更新深度神经网络（DNN）模型，有效提升了梯度下降优化器的收敛性和泛化性，并在实验中验证了其有效性。

Abstract

In this paper, we propose a general deep learning training framework XGrad which introduces weight prediction into the popular gradient-based opt

发现论文，激发创造

学习梯度下降：更好的泛化和更长的视野

本文提出了一种学习自我学习模型和一些实用技巧，以优化损失函数的训练问题，其优化器在许多任务上优于通用的优化算法和DeepMind的学习优化器，包括深度MLP、CNN和简单的LSTM。

Mar, 2017

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有Nesterov动量的随机梯度下降和Adam等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个“超梯度”需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

使用逐层自适应动量的随机梯度方法用于深度神经网络的训练

本文提出了一种自适应随机梯度下降算法NovoGrad，具有分层梯度归一化和分离的权重衰减，模型在图像分类、语音识别、机器翻译和语言模型等领域中的表现优于标准的随机梯度下降算法SGD与Adam（优化算法），同时具有较好的鲁棒性、适用于大批量的训练，并且更省内存。

May, 2019

diffGrad: 卷积神经网络的一种优化方法

本文提出了一种新的优化器 diffGrad，它基于当前和上一梯度之间的差异，并根据参数的梯度变化速度动态调整步长。作者通过实验证明了 diffGrad 在图像分类等任务上的优越性能，特别是与其他优化器相比，diffGrad 对于使用不同激活函数的 CNN 训练具有一致的优越表现。

Sep, 2019

无损适应性：一种带有动量化、自适应、双平均随机梯度优化方法

引入了MADGRAD优化方法，其表现优异，不仅适用于视觉领域中的分类和图像转换任务，还适用于自然语言处理中的循环和双向掩蔽模型。在每个任务中，MADGRAD的测试结果均优于SGD和ADAM，并且在自适应方法通常表现差的问题上也表现出色。

Jan, 2021

StochGradAdam：利用随机梯度采样加速神经网络训练

该研究论文介绍了深度学习优化领域中的StochGradAdam优化器，它是Adam算法的一种新变体，核心是梯度采样技术。该方法不仅确保了稳定的收敛性，还充分利用了选择性梯度考虑的优势，通过减轻嘈杂或异常数据的影响以及增强损失函数空间的探索，提高了可靠性收敛。在图像分类和分割任务中，StochGradAdam优化器表现出优越的性能，相较于传统的Adam优化器。通过在每次迭代中精确采样一部分梯度，该优化器被优化用于管理复杂模型。该论文全面探讨了StochGradAdam的方法论，从数学基础到偏差校正策略，为深度学习训练技术的有望进展铺平了道路。

Oct, 2023

AdAdaGrad：自适应梯度方法的自适应批次大小方案

通过使用自适应批次大小策略，引入了AdAdaGrad和AdAdaGradNorm，在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。

Feb, 2024

聚焦优化：针对预训练模型的学习型优化器

本研究针对现有学习型优化器在广泛应用中的不足，提出了一种新的方法，通过专门化优化器来适应特定的训练环境。结果表明，该专门优化器在图像分类任务中显著优于传统优化方法及现有一般学习优化器，且具备良好的泛化能力，对模型初始化与未见数据集的表现尤为突出。

Aug, 2024

聚焦于特定领域：针对预训练模型的学习优化器

本研究解决了现有学习优化器在普适性上的不足，通过针对特定训练环境专门设计优化器，提出了一种新的优化技术，该技术能够根据基础优化器提供的更新方向，学习层特定的线性组合。在图像分类任务中，这种专门化优化器显著优于传统的优化方法，如Adam，并且在模型初始化、未见数据集和超出元训练范围的训练时长方面表现出强大的泛化能力。

Aug, 2024

AdaGrad在非凸优化中的渐近与非渐近收敛分析：基于新停时分析的方法

本研究解决了AdaGrad在非凸优化中渐近和非渐近收敛率理论分析不足的问题。通过引入来自概率理论的新停时技术，建立了AdaGrad在温和条件下的稳定性，并推导出几乎必然和均方的渐近收敛形式，展示了平均平方梯度的接近最优非渐近收敛率。这为未来其他自适应随机算法的研究提供了潜在的独立技术。

Sep, 2024