Aug, 2019

自适应随机梯度下降的线性收敛

TL;DR本文证明了自适应随机梯度方法的规范版本(AdaGrad-Norm)在强凸函数或满足 Polyak Lojasiewicz 不等式的非凸函数的子集中,达到的收敛速度是线性的。文中引入了梯度的限制均衡不等式(RUIG)的概念,用来描述函数的景观,并且 RUIG 在证明 AdaGrad-Norm 对超参数调整的鲁棒性中发挥着关键作用。我们开发了一个两阶段的框架来证明 AdaGrad-Norm 的线性收敛,而不知道目标函数的参数。数值实验验证了理论,并提出了未来的改进方向。