任意抽样的非凸方差减少优化

Sep, 2018

Nonconvex Variance Reduced Optimization with Arbitrary Sampling

Samuel Horváth, Peter Richtárik

TL;DR调查了非凸损失函数下的经验风险最小化的方差缩减算法，尤其是 SVRG、SAGA 和 SARAH 的非凸版本，提出了基于重要性采样的小批量分析，并成功提高了训练速度。

Abstract

We provide the first importance sampling variants of variance reduced algorithms for empirical risk minimization with non-convex loss functions. In particular, we analyze non-convex versions of SVRG, SAGA and SAR

importance sampling variance reduction non-convex loss functions stochastic optimization minibatch analysis

发现论文，激发创造

任意采样的 SAGA

通过提出一种新的 SAGA 变体，并构建新的随机 Lyapunov 函数，我们展示了一种通用和灵活的方法，可用于训练监督学习模型中极大数量的平滑函数之和的平均值的最小化问题，这种方法可以包括任意的重要性抽样和小批量处理方法，并展示了该方法的迭代复杂度分析和平滑和强凸情形下的线性收敛率，从而在对于有限总和问题的原始 / 对偶方法的复杂性的理解上迈出了重要一步。

Jan, 2019

随机优化的在线方差缩减

本文提出了一种基于 Heuristic 和 Bandit 反馈的在线优化算法，可以寻找一种重要性采样分布序列，竞争力可以与后见之明得到的最佳固定分布相媲美，并在实验验证中证明了该算法在多个数据集和设置下有效的优点。

Feb, 2018

非凸优化的随机方差缩减

本研究分析了随机变量缩减梯度（SVRG）方法在非凸有限和问题中的应用，证明了其比随机梯度下降（SGD）和梯度下降（GD）更快收敛于固定点，并分析了一类 SVRG 在解决非凸问题上的线性收敛，同时研究了 mini-batch 变体的 SVRG 在并行设置中加速的外延。

Mar, 2016

使用负动量采样直接加速 SAGA

本文提出了使用新型负采样动量的加速 SAGA 算法，以实现直接加速 SAGA 的目的，并在已知强凸性参数的强凸问题上实现了最优的预期复杂度。

Jun, 2018

一种支配所有的方法：用于数据、参数和多种新方法的方差缩减

提出了一种通用的降方差的方法，适用于解决带有大量训练样例或大型模型维度或两者都有的正则化经验风险最小化问题。该方法可以减少已知的多种方法，同时提供了一种单一的定理，该定理可以证明在平滑和拟强凸性假设下的线性收敛性。此外，该方法还为随机梯度和随机坐标下降等方法提供了首个统一的方法和理论。

May, 2019

基于随机洗牌的方差缩减随机学习

本文研究基于方差减小的随机梯度算法，探究了随机数据抽样和随机重排的条件下的线性收敛性和新的 AVRG 算法，并给出了理论保证。

Aug, 2017

用于非凸优化的随机递归梯度算法

本文研究分析了随机递归梯度算法 (StochAstic Recursive grAdient algoritHm, SARAH) 的 mini-batch 版本，用于解决非凸损失函数的经验损失最小化问题。我们提出了一种子线性收敛率 (对于一般非凸函数) 和一种线性收敛率 (对于梯度主导函数)，这两种方法相比其他现代非凸损失随机梯度算法具有一些优势。

May, 2017

一种最优混合方差减小算法用于随机复合非凸优化

提出了一种新的混合方差缩减近端梯度法，它使用随机梯度评估来代替早期方法中的 $SARAH$，从而实现每次迭代少使用一个随机梯度，在达到了随机梯度评估的最优随机预测复杂度界限的同时很简单。

Aug, 2020

任意采样的 L-SVRG 和 L-Katyusha

本篇研究提出了一种新的基于方差约减方法的优化算法，并使用预期平滑性条件来上界随机梯度估计的方差，以便于处理任意采样方案和非凸情况，此外还介绍了新的重要性采样，以在预期微型批量大小处实现线性加速，并建立期望平滑性参数与期望可分离过估计的联系，从而利用数据稀疏性。

Jun, 2019

一个简单的随机方差减少算法，具有快速收敛速率

本篇论文介绍了一种简单的随机方差减小 (MiG) 算法及其在强凸和非强凸问题中最佳的收敛速率，并在稀疏和异步情况下介绍了其有效的变体并在这些情况下理论化分析其收敛速率。最后，我们进行了大量的实验，如逻辑回归等，以证明在串行和异步设置中的实际改进。

Jun, 2018