May, 2023

Shuffle SGD 总是比 SGD 更好:对任意数据顺序的 SGD 的改进分析

TL;DR该论文研究了随机梯度下降算法在非凸优化问题中的迭代次数,发现采用随机 / 单扰动的随机梯度下降算法的收敛速度要快于经典的随机梯度下降算法,实验证明其具有更好的性能。