AdaGrad 步长:在非凸景观上的尖锐收敛
本文针对平滑凸函数的标准和更一般的 quasar 凸函数提出了 AdaGrad 及其变体的深入理解,并提出了新的技术来明确界定未约束问题的纯净 AdaGrad 收敛速度,给出了一个新的 AdaGrad 变体,可以展示最终收敛而不是平均迭代,并在确定的情况下给出了新的加速自适应算法及其收敛保证。
Sep, 2022
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号 T)的插值(带有对数项)。
May, 2018
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度,并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
本文证明了自适应随机梯度方法的规范版本(AdaGrad-Norm)在强凸函数或满足 Polyak Lojasiewicz 不等式的非凸函数的子集中,达到的收敛速度是线性的。文中引入了梯度的限制均衡不等式(RUIG)的概念,用来描述函数的景观,并且 RUIG 在证明 AdaGrad-Norm 对超参数调整的鲁棒性中发挥着关键作用。我们开发了一个两阶段的框架来证明 AdaGrad-Norm 的线性收敛,而不知道目标函数的参数。数值实验验证了理论,并提出了未来的改进方向。
Aug, 2019
本文提供了关于一类自适应梯度方法(包括 AMSGrad,RMSProp 和 AdaGRad)在光滑非凸函数优化方面的收敛性分析,证明了期望下自适应梯度方法能够收敛到一阶稳定点,同时还证明了 AMSGrad,RMSProp 和 AdaGrad 的收敛速率,这些结论有助于更好地理解自适应梯度方法在优化非凸目标时的机制。
Aug, 2018
本文提供了一种简单的收敛证明方法,证明了当仅有仿射噪声方差和有界光滑性假设时,AdaGrad 优化非凸目标,本文基于一个新的辅助函数 ξ 来消除处理 AdaGrad 更新的分子和分母之间的相关性的复杂性,与现有结果相比得到了更紧的结果,并将分析扩展到了若干个新的重要情况。
May, 2023
本文提出了一种新的简化的高概率分析 AdaGrad 的方法,并证明了它在光滑非凸问题中的收敛性,并且没有光滑度和方差知识。同时,我们在附加噪声假设下进一步证明了 AdaGrad 的噪声适应性。
Apr, 2022
本文提出了一个通用的分级优化框架,用于求解一类广泛的非平滑非凸问题,采用随机凸优化算法,如准随机梯度下降和 AdaGrad 以及分级降低步长方式,并返回平均解决方案。作者的理论结果表明分级 AdaGrad 的自适应性,从而揭示其对于稀疏随机梯度问题比分级 SGD 更快收敛的见解,并在经验研究中提高了现有 SGD 和 AdaGrad 实现的泛化性能。
Aug, 2018