随机平均梯度:简单实证研究
本文提出了基于随机平均梯度方法的优化算法,它克服了黑匣子随机梯度方法的缺点,具有更快的收敛速度和更少的梯度评估数量。实验表明,该算法在许多情况下都优于现有的随机梯度方法和确定性梯度方法,并且可以通过非均匀采样策略进一步提高表现。
Sep, 2013
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将 SGD 迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个 SGD 迭代的次优性的程度随 T 的轮次按 O(log(T)/sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随 T 按 O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本文讨论了一类随机光滑凸优化问题,其噪声的方差与算法产生的近似解的次优性有关,提出了两个非欧几里德加速随机逼近算法,即随机加速梯度下降(SAGD)和随机梯度外推(SGE),并证明了在适当的条件下,这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。
Jul, 2023
本文探讨了随机梯度下降算法的加速收敛方法,提出了一种自适应加权平均方案,并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明,该自适应加权平均方案不仅在统计率上是最优的,而且在非渐近收敛方面也具有有利的效果。
Jul, 2023
本文介绍了一种针对大规模学习的平均随机梯度下降方法,并提出了一种可以避免其使用不当学习速率时需要巨量数据才能到达渐近区域的简单方法,试验证明该方法在训练大规模线性分类器时优于其他算法。
Jul, 2011
该论文研究了关于具有本地数据样本批量的节点网络的分散式非凸有限和最小化问题,并提出了一种名为 GT-SAGA 的单时间尺度随机增量梯度法,通过利用节点级方差、网络级梯度跟踪等手段优化它的性能,这种方法在特定条件下起到了优于现有方法性能的作用,该文对此进行了详细分析。
Nov, 2020
本文提出了一个通用的分级优化框架,用于求解一类广泛的非平滑非凸问题,采用随机凸优化算法,如准随机梯度下降和 AdaGrad 以及分级降低步长方式,并返回平均解决方案。作者的理论结果表明分级 AdaGrad 的自适应性,从而揭示其对于稀疏随机梯度问题比分级 SGD 更快收敛的见解,并在经验研究中提高了现有 SGD 和 AdaGrad 实现的泛化性能。
Aug, 2018
提出一种基于平均隐式(averaged implicit)随机梯度下降的迭代过程,旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。
May, 2015
本研究提出了两种基于随机梯度下降的算法 (即随机样本平均梯度 (SSAG) 和随机 SAGA (S-SAGA)),以解决使用随机噪声来影响数据集时的期望风险最小化问题,其中 SSAG 收敛速度比 SGD 快,而 S-SAGA 在迭代复杂度和存储方面均优于 S-MISO,并且 SSAG 的存储成本不依赖样本大小,而 S-SAGA 的存储成本与未被扰动的数据上的方差降低方法相同。
Jun, 2018
本文研究随机动量方法,包含随机梯度法(SG),随机重球方法(SHB)和随机 Nesterov's 加速梯度方法(SNAG)。我们提出了一个框架,统一了这三种方法,并通过一致稳定性方法推导了梯度范数的收敛速率和推导了非凸优化问题。同时,我们也分别分析了这三个方法的收敛率和泛化性能。研究结果表明,动量项可以提高学习模型的稳定性和泛化性能。
Aug, 2018