Aug, 2017

关于 $K$ 步均值随机梯度下降算法在非凸优化中的收敛性质

TL;DR采用同步K步均值随机梯度下降算法,解决机器学习问题,证明K-AVG算法的收敛性,解释为什么需要K步延迟,表明在大规模数据集上,K-AVG算法优于ASGD算法。