BriefGPT.xyz
Feb, 2020
无替换的 SGD 缩小收敛差距
Closing the convergence gap of SGD without replacement
HTML
PDF
Shashank Rajput, Anant Gupta, Dimitris Papailiopoulos
TL;DR
本文探讨了不带替换采样的随机梯度下降在模型训练中的应用,并对凸函数的 SGD 收敛速率进行了分析。我们证明,当函数是二次型时,SGD 不带替换采样的收敛速率为 O(1/T^2 + n^2/T^3),同时我们也提出了强凸函数收敛速率的新的下界。
Abstract
stochastic gradient descent
without replacement sampling
is widely used in practice for
model training
. However, the vast majority of SGD
→