通过迭代平均获得可调整的正则化
本文研究了随机梯度下降在随机情形下的最优性。结果表明,对于光滑问题,算法可以达到最优的O(1/T)收敛速率,但对于非光滑问题,平均收敛速率可能真的是Ω(log(T)/T),而这不仅仅是分析的产物。反过来,我们展示了一种简单的平均步骤修改方法,足以恢复到O(1/T)收敛速率,而无需对算法做出任何其他改变。此外,我们还给出了支持我们发现的实验结果,并指出了开放性问题。
Sep, 2011
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
提出一种基于平均隐式(averaged implicit)随机梯度下降的迭代过程,旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。
May, 2015
探讨使用随机梯度下降的加权迭代平均算法,对确定的不可知参数进行最小二乘回归,分析了其收敛速度和误差,并提出了一种新的算法,取得了更好的性能表现。
Jun, 2016
该研究探讨了在随机梯度下降中广泛使用的平均方案的好处。特别是,通过对最小二乘回归的随机逼近问题进行非渐进超额风险分析,提供了这些方案的性能保证,并提出了高度可并行化的随机梯度下降方法。同时,该研究认为,为了保证最小极大风险,针对混浊噪声的步长必须是噪声属性的一个函数。
Oct, 2016
论文描述了一种框架,用于推导和分析在线优化算法,包括数据相关正则化,称为预调节。该框架捕获和统一了许多关于自适应在线方法的现有文献,包括AdaGrad和Online Newton Step算法及其对角线版本。我们得到了这些算法的新收敛证明,这些证明比以前的分析要简单得多。我们的框架还揭示了常见随机优化方法中不同预调节更新的基本原理。
Jun, 2017
该论文提出了一种变种的 Polyak-Ruppert 平均方案,通过几何衰减的加权平均来在随机梯度方法中起到正则化的作用,其在线性最小二乘回归中具有岭回归的等价性,并提出与常规随机梯度方法相匹配的有限样本界。
Feb, 2018
本文探讨了随机梯度下降算法的加速收敛方法,提出了一种自适应加权平均方案,并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明,该自适应加权平均方案不仅在统计率上是最优的,而且在非渐近收敛方面也具有有利的效果。
Jul, 2023
通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的SGD和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的SGD的增强正则化效果。
Mar, 2024