Feb, 2022

SGD 中的自适应能力:无界梯度和仿射方差下的自调步长

TL;DR本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度,并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。