自适应随机优化器的最佳超参数 $ε$ 探索:基于梯度直方图的方法
本文揭示了关于 Adam 算法等自适应梯度方法在深度学习中的训练动态的知识匮乏。研究结果发现,在 Full-batch 和足够大的 Batch 设置中,Hessian 预处理的最大特征值通常会达到某个数值,即梯度下降算法的稳定阈值。此外,即使是自适应方法在稳定边缘的训练中,其行为也不同于非自适应方法,因为它们可以不断进入高曲率区域,同时调整预处理器来进行补偿。
Jul, 2022
本文证明了优化器比较对超参数调整协议的敏感性,提出探究搜索空间是解释当前文献中最新动态排名的最重要因素之一,并展示实验结果证明了目前广泛使用的自适应梯度方法永远不会劣于动量或梯度下降。
Oct, 2019
本文提出了优化器 Omega 和一种带动量的变化形式,Omega 通过 EMA 历史梯度更新来减轻噪声影响,实验表明,在应用于线性玩家时 Omega 优于乐观梯度法。
Jun, 2023
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。
Jul, 2020
本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时,普遍使用最后一次迭代作为最终解决方案,但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题,并且探究单独收敛分析问题,最终我们证明了:在约束凸问题中,使用 Polyak's Heavy-ball 方法,它只能通过移动平均策略更新步长,即可获得 O(1 / 根号 T)的最优收敛率,而不是普通 SGD 的 O(log T / 根号 T)的优化。同时,我们的新型分析方法不仅阐释了 HB 动量及其时间变化的作用,还给出了有价值的暗示,即动量参数应如何进行安排。同时,针对优化凸函数和训练深度网络的实证结果,验证了我们收敛分析的正确性,并证明了自适应 HB 方法的改进性能。
Feb, 2021
本文旨在从理论和实证角度分析适应性梯度算法在解决非凸非凹极小极大问题中的性能,并提出了一种名为乐观阿达格勒的自适应变体算法,证明了非凸非凹极小极大优化的自适应复杂性,并在生成对抗网络培训中显示出优越性能。
Dec, 2019
提出了一种无需手动调节参数的优化器 AdamG,通过使用 AdaGrad-Norm 算法中的黄金步长派生技术,自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。
May, 2024
本研究提出了一种双重随机算法,使用新的加速多动量技术来解决学习任务中的大规模经验风险最小化问题,各迭代只访问一小批样本和同时更新一小块变量坐标,从而在同时涉及海量样本大小和超高维度时显著减少了内存引用量,实证研究也说明了该方法在实践中的高效性。
Apr, 2023
本文提出了一种算法来优化连续超参数,该方法可以在模型参数完全收敛之前更新超参数,具有全局收敛的充分条件,并在 L2 正则化逻辑回归和核岭回归的正则化常数估计上验证了实证表现。
Feb, 2016