Dec, 2018
非光滑随机梯度下降的严格分析
Tight Analyses for Non-Smooth Stochastic Gradient Descent
TL;DR使用随机梯度下降来最小化Lipschitz函数和强凸函数但不一定可微的问题,证明了在T步随机梯度下降后,最终迭代的误差高概率为O(log(T)/T);同时构造了一个函数,证明了在确定性梯度下降中,最终迭代的误差为Ω(log(T)/T);然后证明了在采用后缀平均法的情形下,它的高概率误差界是优化函数相关类别中的最优界(O(1/T));最后证明了对于Lipschitz和凸函数 class,使用随机梯度下降解决此问题后,最终迭代的误差高概率为O(log(T)/sqrt(T))