Feb, 2020

无替换的 SGD 缩小收敛差距

TL;DR本文探讨了不带替换采样的随机梯度下降在模型训练中的应用,并对凸函数的 SGD 收敛速率进行了分析。我们证明,当函数是二次型时,SGD 不带替换采样的收敛速率为 O(1/T^2 + n^2/T^3),同时我们也提出了强凸函数收敛速率的新的下界。