May, 2023

一枚硬币的两面:未调节的 SGD 的局限性和自适应方法的威力

TL;DR本文探讨了随机梯度下降法与多项式衰减步长之间的关系,并证明无调谐的随机梯度下降法具有渐进最优的收敛速率,但需要面临指数级的平滑度常数;而规范化 SGD、AMSGrad 和 AdaGrad 方法可以在不知道平滑度参数和随机梯度边界条件的情况下消除梯度爆炸问题。