Sep, 2011

强凸随机优化的最优梯度下降算法

TL;DR本文研究了随机梯度下降在随机情形下的最优性。结果表明,对于光滑问题,算法可以达到最优的O(1/T)收敛速率,但对于非光滑问题,平均收敛速率可能真的是Ω(log(T)/T),而这不仅仅是分析的产物。反过来,我们展示了一种简单的平均步骤修改方法,足以恢复到O(1/T)收敛速率,而无需对算法做出任何其他改变。此外,我们还给出了支持我们发现的实验结果,并指出了开放性问题。