使用草图预处理 SVRG 解决 Ridge 回归

Feb, 2016

使用草图预处理 SVRG 解决 Ridge 回归

Solving Ridge Regression using Sketched Preconditioned SVRG

Alon Gonen, Francesco Orabona, Shai Shalev-Shwartz

TL;DR利用线性草图方法开发了一种新的预处理方法，将其应用于随机方差减少梯度（SVRG）算法，相对于 SVRG，SDCA 和 SAG 等快速随机方法取得了显著的加速效果。

Abstract

We develop a novel preconditioning method for ridge regression, based on recent linear sketching methods. By equipping Stochastic Variance

preconditioning ridge regression linear sketching stochastic variance reduced gradient fast stochastic methods

发现论文，激发创造

使用预处理改进最小二乘问题的隐式正则化 SGD

通过对预处理的随机梯度下降（SGD）和岭回归的综合比较研究，我们建立了预处理的 SGD 和岭回归的过度风险界限，并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归，从而展示了预处理的 SGD 的增强正则化效果。

Mar, 2024

不精确预处理加速 SVRG 和 Katyusha X

本文在经验风险最小化的优化问题中，提出了一种在 SVRG 和 Katyusha X 算法之上的加速方法，该方法基于不精确预处理和固定的预处理器，同时支持每个有限和函数为非凸函数，数值实验显示其具有更快的收敛速度。

May, 2019

非凸优化的随机方差缩减

本研究分析了随机变量缩减梯度（SVRG）方法在非凸有限和问题中的应用，证明了其比随机梯度下降（SGD）和梯度下降（GD）更快收敛于固定点，并分析了一类 SVRG 在解决非凸问题上的线性收敛，同时研究了 mini-batch 变体的 SVRG 在并行设置中加速的外延。

Mar, 2016

利用草图和预调整加速核岭回归

本文提出了一种基于随机特征图的预处理技术来加速解决核岭回归中不良条件和密集矩阵问题，可以适用于大规模数据集，实验证明该方法在一百万个训练样例的数据集中表现良好。

Nov, 2016

实用 SVRG：停止浪费我的梯度

本文介绍了多种提高随机方差减小梯度方法性能的策略，包括使用递减误差控制变量、使用递增批处理策略以及利用支撑向量减少计算。此外，本文还考虑了不同小批量选择策略和该方法的泛化误差问题。

Nov, 2015

随机梯度下降中方差与复杂度的权衡

CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.

Mar, 2016

大规模约束线性回归再访：通过预条件处理获得更快算法

这篇论文提出了基于近期的数据草图 (sketching) 与优化发展的快速方法，结合 (加速的) mini-batch SGD 与一个叫做两步预处理的新方法，以比当前低精度情况下最先进技术所需的时间复杂度更低的近似解。这个方法也可以扩展到高精度情况，提供一个具有显著时间复杂度改进的 Iterative Hessian Sketch (IHS) 方法的替代实现。基准和合成数据集上的实验表明，我们的方法确实在低精度和高精度情况下都明显优于现有方法。

Feb, 2018

稳定 SVRG: 非凸优化的简单方差缩减

该研究使用改进的 SVRG 算法创新性地找到一个非凸函数的二阶稳定点，并提出了使用稳定性 SVRG 算法的方法。

May, 2019

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

VR-SGD: 一种简单的随机方差缩减机器学习方法

本文提出了一种名为 VR-SGD 的变体随机梯度下降法，其使用平均值和上一个时期的最后迭代作为两个向量，能够直接解决非光滑和 / 或非强凸问题，并能够使用更大的学习率。此方法在解决各种机器学习问题，如凸和非凸的经验风险最小化以及特征值计算等方面，具有更快的收敛速度。

Feb, 2018