Feb, 2022
SGD 中的自适应能力:无界梯度和仿射方差下的自调步长
The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded Gradients and Affine Variance
Matthew Faw, Isidoros Tziotis, Constantine Caramanis, Aryan Mokhtari, Sanjay Shakkottai...
TL;DR本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度,并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。