通过迭代平均获得可调整的正则化
该论文提出了一种变种的 Polyak-Ruppert 平均方案,通过几何衰减的加权平均来在随机梯度方法中起到正则化的作用,其在线性最小二乘回归中具有岭回归的等价性,并提出与常规随机梯度方法相匹配的有限样本界。
Feb, 2018
研究算法归纳偏差对于防止过度拟合的重要性,探讨使用常数步长随机梯度下降算法在超参数化情况下进行线性回归的问题和解决方案,提供了数据协方差矩阵全部的特征值,阐述一个可以使得泛化成为可能的偏差 - 方差分解,实验结果表明理论结果的正确性。
Mar, 2021
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将 SGD 迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个 SGD 迭代的次优性的程度随 T 的轮次按 O(log(T)/sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随 T 按 O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
提出一种基于平均隐式(averaged implicit)随机梯度下降的迭代过程,旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。
May, 2015
研究了多个工作者独立运行 SGD 并定期平均模型的常见但未被充分理解的做法,探讨了模型平均作为方差减少机制的两种方式,并说明了平均频率对收敛的影响,对于凸目标函数,频繁平均的好处依赖于梯度方差包络,在非凸目标函数中,该好处取决于多个全局最优点的存在。在合成数据和实际数据上进行了多核实验以补充研究结果。
Jun, 2016
该研究探讨了在随机梯度下降中广泛使用的平均方案的好处。特别是,通过对最小二乘回归的随机逼近问题进行非渐进超额风险分析,提供了这些方案的性能保证,并提出了高度可并行化的随机梯度下降方法。同时,该研究认为,为了保证最小极大风险,针对混浊噪声的步长必须是噪声属性的一个函数。
Oct, 2016
本文探讨了随机梯度下降算法的加速收敛方法,提出了一种自适应加权平均方案,并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明,该自适应加权平均方案不仅在统计率上是最优的,而且在非渐近收敛方面也具有有利的效果。
Jul, 2023
本文介绍了一种针对大规模学习的平均随机梯度下降方法,并提出了一种可以避免其使用不当学习速率时需要巨量数据才能到达渐近区域的简单方法,试验证明该方法在训练大规模线性分类器时优于其他算法。
Jul, 2011
本文提出在插值范式内的正则条件,使得随机梯度方法与确定性梯度方法具有相同的最坏迭代复杂度,同时仅在每次迭代中使用单个采样梯度(或一个小批量)。最后,我们证明了我们的条件在训练具有线性输出层的足够宽的前馈神经网络时成立。
Jun, 2023