本文提供了一种简单的收敛证明方法,证明了当仅有仿射噪声方差和有界光滑性假设时,AdaGrad 优化非凸目标,本文基于一个新的辅助函数 ξ 来消除处理 AdaGrad 更新的分子和分母之间的相关性的复杂性,与现有结果相比得到了更紧的结果,并将分析扩展到了若干个新的重要情况。
May, 2023
重新审视 AdaGrad 与动量的收敛性,研究非凸光滑优化问题中的噪声模型,分析概率收敛速度及广义平滑性
Feb, 2024
本文提出了一种更新梯度下降步长的方法:AdaGrad-Norm,不需要微调步长计划,对于光滑的非凸函数具有收敛性,并具备健壮性
Jun, 2018
本文针对平滑凸函数的标准和更一般的 quasar 凸函数提出了 AdaGrad 及其变体的深入理解,并提出了新的技术来明确界定未约束问题的纯净 AdaGrad 收敛速度,给出了一个新的 AdaGrad 变体,可以展示最终收敛而不是平均迭代,并在确定的情况下给出了新的加速自适应算法及其收敛保证。
Sep, 2022
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度,并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号 T)的插值(带有对数项)。
May, 2018
证明在 L - 平滑度条件下,随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差,且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.
Jul, 2019
通过利用指数步长和随机线性搜索等技术,使得随机梯度下降算法适应不同噪声水平和问题相关的常数,可以在强凸函数的条件下,取得与理论最优相近的收敛速度,同时能够有效地处理噪声和数据不凸的情况。
Oct, 2021
本文提出了一种新的简化的高概率分析 AdaGrad 的方法,并证明了它在光滑非凸问题中的收敛性,并且没有光滑度和方差知识。同时,我们在附加噪声假设下进一步证明了 AdaGrad 的噪声适应性。
Apr, 2022
本文提供了关于一类自适应梯度方法(包括 AMSGrad,RMSProp 和 AdaGRad)在光滑非凸函数优化方面的收敛性分析,证明了期望下自适应梯度方法能够收敛到一阶稳定点,同时还证明了 AMSGrad,RMSProp 和 AdaGrad 的收敛速率,这些结论有助于更好地理解自适应梯度方法在优化非凸目标时的机制。
Aug, 2018