Jun, 2018

AdaGrad 步长:在非凸景观上的尖锐收敛

TL;DR本文提出了一种更新梯度下降步长的方法:AdaGrad-Norm,不需要微调步长计划,对于光滑的非凸函数具有收敛性,并具备健壮性