去除平方根：AdaGrad 的新高效的尺度不变版本

Mar, 2024

去除平方根：AdaGrad 的新高效的尺度不变版本

Remove that Square Root: A New Efficient Scale-Invariant Version of AdaGrad

Sayantan Choudhury, Nazarii Tupitsa, Nicolas Loizou, Samuel Horvath, Martin Takac...

TL;DR本研究介绍了一种名为 KATE 的新型优化算法，它是 AdaGrad 算法的一个尺度不变适应版本。我们通过证明其在广义线性模型中具有尺度不变性，并利用数值实验比较 KATE 与 Adam 和 AdaGrad 算法在不同问题上的性能，包括图像分类和文本分类等复杂机器学习任务，结果表明 KATE 在各种情境中始终优于 AdaGrad 并与 Adam 的性能相当甚至超越。

Abstract

adaptive methods are extremely popular in machine learning as they make learning rate tuning less expensive. This paper introduces a novel optimization algorithm named →

adaptive methods machine learning optimization algorithm kate convergence rate

发现论文，激发创造

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

自适应梯度方法中是否可以去除平方根？一个二阶视角

去掉平方根的自适应方法能够改善在卷积架构上的泛化差异，同时保持其基于平方根的对应物在转换器上的性能，从而提出了二阶的视角来发展带有非对角线的自适应方法，它们不需要数值不稳定的矩阵平方根，在低精度下工作良好。

Feb, 2024

AdaGrad 步长：在非凸景观上的尖锐收敛

本文提出了一种更新梯度下降步长的方法：AdaGrad-Norm，不需要微调步长计划，对于光滑的非凸函数具有收敛性，并具备健壮性

Jun, 2018

Local AdaAlter: 基于自适应学习率的通信高效性随机梯度下降

本篇论文提出了一种新的 SGD 变体算法，降低了通信开销及提高自适应学习率，经实验证明，该算法显著降低了通信开销，进而缩短了 1B 字数据集的训练时间 30%。

Nov, 2019

SGD 中的自适应能力：无界梯度和仿射方差下的自调步长

本研究旨在研究基于观察的随机梯度的步长的变化，以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度，并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度，同时不需要任何调整参数。

Feb, 2022

迈向无参数优化的稳定性

提出了一种无需手动调节参数的优化器 AdamG，通过使用 AdaGrad-Norm 算法中的黄金步长派生技术，自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。

May, 2024

一类带 AdaGrad 步长的非凸算法的高概率界

本文提出了一种新的简化的高概率分析 AdaGrad 的方法，并证明了它在光滑非凸问题中的收敛性，并且没有光滑度和方差知识。同时，我们在附加噪声假设下进一步证明了 AdaGrad 的噪声适应性。

Apr, 2022

可扩展自适应随机投影随机优化

通过随机降维的方式，提出了 Ada-LR 和 RadaGrad 两种有效的逼近全矩阵 AdaGrad 的算法，能够在减少计算 cost 的同时保证和全矩阵 AdaGrad 相似的性能，其中 RadaGrad 在卷积神经网络和循环神经网络的训练中能够实现更快的收敛速度。

Nov, 2016

指数梯度更新的步长自适应

通过将指定的优化器与自适应调整方法相结合，基于指定的全局步长缩放和每个坐标的增益因子来调整全局步长，进而提高在大规模应用中优化器的性能，并用指数化梯度更新方法来更新步长范围和增益变量，可在训练期间快速适应数据分布差异。

Jan, 2022