基于方差减少的随机优化算法在具有有限和结构的无限数据集上的应用
该研究提出了一种名为“Vite”的基于Stochastic Quasi-Newton算法的优化方法,它利用一种现有的一阶技术来减少噪声和方差,并在大规模学习问题上取得了不错的结果。
Mar, 2015
本篇论文研究了非凸优化中高效到达稳定点的基本问题,并利用方差缩减技巧和适用于非凸优化的全新方差缩减分析提出一种首个非凸优化的一阶小批量随机算法,并在非凸损失函数和神经网络训练中表现出了有效性。
Mar, 2016
本研究分析了随机变量缩减梯度(SVRG)方法在非凸有限和问题中的应用,证明了其比随机梯度下降(SGD)和梯度下降(GD)更快收敛于固定点,并分析了一类SVRG在解决非凸问题上的线性收敛,同时研究了mini-batch变体的SVRG在并行设置中加速的外延。
Mar, 2016
本研究提出了两种基于随机梯度下降的算法(即随机样本平均梯度(SSAG)和随机SAGA(S-SAGA)),以解决使用随机噪声来影响数据集时的期望风险最小化问题,其中SSAG收敛速度比SGD快,而S-SAGA在迭代复杂度和存储方面均优于S-MISO,并且SSAG的存储成本不依赖样本大小,而S-SAGA的存储成本与未被扰动的数据上的方差降低方法相同。
Jun, 2018
本篇论文介绍了一种简单的随机方差减小(MiG)算法及其在强凸和非强凸问题中最佳的收敛速率,并在稀疏和异步情况下介绍了其有效的变体并在这些情况下理论化分析其收敛速率。最后,我们进行了大量的实验,如逻辑回归等,以证明在串行和异步设置中的实际改进。
Jun, 2018
本文提出了一种统一分析的变体的近端随机梯度下降法,包括了未进行方差缩减、重要性抽样、小批量抽样、量化、坐标子采样等方法,同时获得了近端随机梯度下降法和随机化坐标下降法、方差缩减和非方差缩减的统一理论,提出了五种新变体的近端随机梯度下降法,并通过数值实验证明了其性质。
May, 2019
提出了一种通用的降方差的方法,适用于解决带有大量训练样例或大型模型维度或两者都有的正则化经验风险最小化问题。该方法可以减少已知的多种方法,同时提供了一种单一的定理,该定理可以证明在平滑和拟强凸性假设下的线性收敛性。此外,该方法还为随机梯度和随机坐标下降等方法提供了首个统一的方法和理论。
May, 2019