Adagrad 在各向异性光滑下的大批量分析

Jun, 2024

Adagrad 在各向异性光滑下的大批量分析

Large Batch Analysis for Adagrad Under Anisotropic Smoothness

Yuxing Liu, Rui Pan, Tong Zhang

TL;DR通过在大批量设置下对 Adagrad 进行新分析，证明了它在凸平滑目标和非凸平滑目标上不会因批量大小增加而收敛减慢，因此在大批量设置中仍然可以比 SGD 更快地实现收敛，进而解决了理论和实践之间的差距。

Abstract

adaptive gradient algorithms have been widely adopted in training large-scale deep neural networks, especially large foundation models. Despite their huge success in practice, their theoretical advantages over st

adaptive gradient algorithms theoretical advantages large batch-size setting convergence analysis adagrad

发现论文，激发创造

自适应批处理大小的自动推理：大批量 SGD

本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法，以维持梯度逼近的信噪比的稳定，从而实现自动学习率选择和避免步长衰减，并且不需要目标函数凸性的限制。

Oct, 2016

AdAdaGrad：自适应梯度方法的自适应批次大小方案

通过使用自适应批次大小策略，引入了 AdAdaGrad 和 AdAdaGradNorm，在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。

Feb, 2024

AdaGrad 步长：在非凸景观上的尖锐收敛

本文提出了一种更新梯度下降步长的方法：AdaGrad-Norm，不需要微调步长计划，对于光滑的非凸函数具有收敛性，并具备健壮性

Jun, 2018

AdaBatch：基于有效渐进聚合规则的序列和并行随机梯度方法

本文研究一种用于 mini-batch 的梯度聚合算子，名为 AdaBatch。该算子可用于随机梯度方法，并在稀疏优化问题中大大加速训练过程，同时在保持样本效率的前提下增加批处理大小。实验显示，在光滑凸优化中，该方法甚至可以在固定样本数量的情况下，通过增加批处理大小获得更低的损失。

Nov, 2017

偏见自适应随机逼近的非渐近分析

本研究通过非渐进性分析，探讨具有偏倚梯度和自适应步长的随机梯度下降算法，包括时间依赖的偏倚和梯度估计器的均方误差控制，结果表明带偏倚梯度的 Adagrad 和 RMSProp 算法收敛速率与无偏情况下的结果相似，实验结果进一步验证了收敛性，并展示了通过适当的超参数调整可以减少偏倚影响的能力。

Feb, 2024

自适应梯度方法在细化平滑度和噪声假设下的收敛分析

分析了 AdaGrad 在随机非凸优化中收敛速率，证明了存在优于 SGD 的收敛速度，并给出了收敛速率的上界和下界。

Jun, 2024

AdaBatchGrad: 组合自适应批量大小和自适应步长

这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法，称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小，提高了 SGD 的收敛性和稳定性。通过实验证明，引入自适应步长和批大小大大提高了正常 SGD 的性能，使得 AdaBatchGrad 方法在非精确测试中表现更好。

Feb, 2024

SGD 中的自适应能力：无界梯度和仿射方差下的自调步长

本研究旨在研究基于观察的随机梯度的步长的变化，以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度，并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度，同时不需要任何调整参数。

Feb, 2022

自适应步长随机梯度下降算法的收敛性

通过研究广义 AdaGrad 步长在凸和非凸设置中，本文证明了这些步长实现梯度渐近收敛于零的充分条件，从而填补了这些方法理论上的空白。此外，本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下，实现 O（1/T）到 O（1 / 根号 T）的插值（带有对数项）。

May, 2018

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020