非强凸最小二乘问题的加速随机梯度下降
本文研究了随机梯度下降在随机情形下的最优性。结果表明,对于光滑问题,算法可以达到最优的O(1/T)收敛速率,但对于非光滑问题,平均收敛速率可能真的是Ω(log(T)/T),而这不仅仅是分析的产物。反过来,我们展示了一种简单的平均步骤修改方法,足以恢复到O(1/T)收敛速率,而无需对算法做出任何其他改变。此外,我们还给出了支持我们发现的实验结果,并指出了开放性问题。
Sep, 2011
本文提出了一种加速的非平滑随机梯度下降算法- ANSGD,该算法利用常见非平滑损失函数的结构来实现一类问题(包括SVM)的最优收敛速率,是第一个能够实现最优O(1/t)率的随机算法来最小化非平滑损失函数的算法,经实证比较表明,ANSGD明显优于以前的次梯度下降算法,包括SGD。
May, 2012
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
提出一种基于平均加速正则梯度下降的算法,通过细化初值和Hessian矩阵的假设,最优地优化回归问题,并证明其在偏差与方差之间具有最优性、大数据时初始化影响可达到O(1/n2)以及对于维度d的依赖程度为O(d/n)。
Feb, 2016
该研究探讨了在随机梯度下降中广泛使用的平均方案的好处。特别是,通过对最小二乘回归的随机逼近问题进行非渐进超额风险分析,提供了这些方案的性能保证,并提出了高度可并行化的随机梯度下降方法。同时,该研究认为,为了保证最小极大风险,针对混浊噪声的步长必须是噪声属性的一个函数。
Oct, 2016
本文研究加速随机梯度方法在最小二乘回归问题中的应用,通过对加速随机梯度下降作为随机过程的深入分析,证明了引入加速能够使其对统计误差具有鲁棒性,并提出了一种优于随机梯度下降的加速随机梯度方法。
Apr, 2017
证明在L-平滑度条件下, 随机梯度下降的迭代收敛速度的数量级为O(LR2exp[-(mu/4L)T]+sigma2/muT),其中sigma2是随机噪声方差, 且收敛速度与最佳已知的GD和SGD迭代复杂度匹配.
Jul, 2019
本文研究了在平滑拟凸和非凸函数上的随机梯度下降法(SGD)进行延迟更新,并得出了简洁的非渐近收敛速度。我们证明了在所有情况下收敛速度的由两个项组成:(i)一个随机项,不受延迟的影响,和(ii)一个更高阶的确定性项,只是通过延迟线性减缓。因此,在存在噪声的情况下,延迟的影响在几次迭代后变得微不足道,算法以与标准 SGD 相同的最优速度收敛。我们进一步展示了在使用层压梯度(compressed gradients)进行错误补偿时以及在多个节点上做本地 SGD 之后通信的情况下,与现有最佳算法相比,我们得到了更好的结果。这些结果表明 SGD 对于压缩和/或延迟的随机梯度更新是具有鲁棒性的。这对于分布式并行实现特别重要,因为异步和通信高效方法是实现多设备优化的线性加速的关键。
Sep, 2019
本文讨论了一类随机光滑凸优化问题,其噪声的方差与算法产生的近似解的次优性有关,提出了两个非欧几里德加速随机逼近算法,即随机加速梯度下降(SAGD)和随机梯度外推(SGE),并证明了在适当的条件下,这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用SGE进行恢复稀疏解的方法。
Jul, 2023