自适应随机优化器的最佳超参数 $ε$ 探索：基于梯度直方图的方法

Nov, 2023

自适应随机优化器的最佳超参数 $ε$ 探索：基于梯度直方图的方法

Optimal Hyperparameter $ε$ for Adaptive Stochastic Optimizers through Gradient Histograms

Gustavo Silva, Paul Rodriguez

TL;DR基于梯度直方图的新框架分析和证明自适应优化器的重要属性，包括最佳性能和超参数之间的关系和依赖性；同时，提出一种基于梯度直方图的新算法，可以自动估计减少且准确的搜索空间，用于寻找安全保护超参数 epsilon 的最佳值。

Abstract

optimizers are essential components for successfully training deep neural network models. In order to achieve the best performance from such models, designers need to carefully choose the optimizer hyperparameters

optimizers hyperparameters neural network models adam optimizers gradient histograms

发现论文，激发创造

稳定性边缘的自适应梯度方法

本文揭示了关于 Adam 算法等自适应梯度方法在深度学习中的训练动态的知识匮乏。研究结果发现，在 Full-batch 和足够大的 Batch 设置中，Hessian 预处理的最大特征值通常会达到某个数值，即梯度下降算法的稳定阈值。此外，即使是自适应方法在稳定边缘的训练中，其行为也不同于非自适应方法，因为它们可以不断进入高曲率区域，同时调整预处理器来进行补偿。

Jul, 2022

深度学习优化器的实证比较

本文证明了优化器比较对超参数调整协议的敏感性，提出探究搜索空间是解释当前文献中最新动态排名的最重要因素之一，并展示实验结果证明了目前广泛使用的自适应梯度方法永远不会劣于动量或梯度下降。

Oct, 2019

Omega：乐观 EMA 梯度

本文提出了优化器 Omega 和一种带动量的变化形式，Omega 通过 EMA 历史梯度更新来减轻噪声影响，实验表明，在应用于线性玩家时 Omega 优于乐观梯度法。

Jun, 2023

优化器基准测试需考虑超参数调整

本文的研究结果表明，Adam 优化器是一种实用的解决方案，尤其在低预算场景中，因为评估不同优化器的性能必须考虑到超参数搜索的计算成本和难度。

Oct, 2019

自适应带动量的 SGD 高概率分析

本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析，证明了在弱假设条件下，Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。

Jul, 2020

自适应 Polyak 重球方法中动量参数在最优收敛中的作用

本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时，普遍使用最后一次迭代作为最终解决方案，但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题，并且探究单独收敛分析问题，最终我们证明了：在约束凸问题中，使用 Polyak's Heavy-ball 方法，它只能通过移动平均策略更新步长，即可获得 O（1 / 根号 T）的最优收敛率，而不是普通 SGD 的 O（log T / 根号 T）的优化。同时，我们的新型分析方法不仅阐释了 HB 动量及其时间变化的作用，还给出了有价值的暗示，即动量参数应如何进行安排。同时，针对优化凸函数和训练深度网络的实证结果，验证了我们收敛分析的正确性，并证明了自适应 HB 方法的改进性能。

Feb, 2021

生成对抗网络中自适应梯度算法的深入理解

本文旨在从理论和实证角度分析适应性梯度算法在解决非凸非凹极小极大问题中的性能，并提出了一种名为乐观阿达格勒的自适应变体算法，证明了非凸非凹极小极大优化的自适应复杂性，并在生成对抗网络培训中显示出优越性能。

Dec, 2019

迈向无参数优化的稳定性

提出了一种无需手动调节参数的优化器 AdamG，通过使用 AdaGrad-Norm 算法中的黄金步长派生技术，自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。

May, 2024

大规模经验风险最小化的加速双随机梯度算法

本研究提出了一种双重随机算法，使用新的加速多动量技术来解决学习任务中的大规模经验风险最小化问题，各迭代只访问一小批样本和同时更新一小块变量坐标，从而在同时涉及海量样本大小和超高维度时显著减少了内存引用量，实证研究也说明了该方法在实践中的高效性。

Apr, 2023

使用近似梯度进行超参数优化

本文提出了一种算法来优化连续超参数，该方法可以在模型参数完全收敛之前更新超参数，具有全局收敛的充分条件，并在 L2 正则化逻辑回归和核岭回归的正则化常数估计上验证了实证表现。

Feb, 2016