针对复合凸光滑优化的随机梯度方法统一分析
该研究提出了一种名为“Vite”的基于Stochastic Quasi-Newton算法的优化方法,它利用一种现有的一阶技术来减少噪声和方差,并在大规模学习问题上取得了不错的结果。
Mar, 2015
提出了一种利用小批量方案改进半随机梯度下降(S2GD)方法的 mS2GD,该方法主要用于最小化一个由很多光滑凸函数的平均值和一个简单的非光滑凸正则化器组成的强凸函数,分析表明,该方法在具有小批量效应和简单并行实现方案的情况下,可以加速算法的收敛过程。
Apr, 2015
本研究分析了随机变量缩减梯度(SVRG)方法在非凸有限和问题中的应用,证明了其比随机梯度下降(SGD)和梯度下降(GD)更快收敛于固定点,并分析了一类SVRG在解决非凸问题上的线性收敛,同时研究了mini-batch变体的SVRG在并行设置中加速的外延。
Mar, 2016
本文提出了针对复合目标强凸的情况下,带有方差约束的随机梯度下降法,其收敛速度优于传统的随机梯度下降法,同时常数因子也更小,只与输入数据的方差有关。
Oct, 2016
本文研究一种用于 mini-batch 的梯度聚合算子,名为 AdaBatch。该算子可用于随机梯度方法,并在稀疏优化问题中大大加速训练过程,同时在保持样本效率的前提下增加批处理大小。实验显示,在光滑凸优化中,该方法甚至可以在固定样本数量的情况下,通过增加批处理大小获得更低的损失。
Nov, 2017
本篇论文介绍了一种简单的随机方差减小(MiG)算法及其在强凸和非强凸问题中最佳的收敛速率,并在稀疏和异步情况下介绍了其有效的变体并在这些情况下理论化分析其收敛速率。最后,我们进行了大量的实验,如逻辑回归等,以证明在串行和异步设置中的实际改进。
Jun, 2018
本文提出了一种统一分析的变体的近端随机梯度下降法,包括了未进行方差缩减、重要性抽样、小批量抽样、量化、坐标子采样等方法,同时获得了近端随机梯度下降法和随机化坐标下降法、方差缩减和非方差缩减的统一理论,提出了五种新变体的近端随机梯度下降法,并通过数值实验证明了其性质。
May, 2019
证明在L-平滑度条件下, 随机梯度下降的迭代收敛速度的数量级为O(LR2exp[-(mu/4L)T]+sigma2/muT),其中sigma2是随机噪声方差, 且收敛速度与最佳已知的GD和SGD迭代复杂度匹配.
Jul, 2019
在有限和求和最小化的背景下,方差缩减技术被广泛应用于改进现有随机梯度方法的性能,本研究首次提出了针对随机近端点算法的方差缩减技术研究,介绍了针对平滑凸函数的SVRG、SAGA和其变种的随机近端版本,并且提供了迭代和目标函数值的多个收敛结果,特别对于满足Polyak-Lojasiewicz条件的情况下,我们获得了迭代和函数值的线性收敛速度,数值实验结果表明相对于梯度方法来说,近端方差缩减方法在选择步长方面具有更好的稳定性。
Aug, 2023