随机梯度方法的测试误差的指数收敛

Dec, 2017

随机梯度方法的测试误差的指数收敛

Exponential convergence of testing error for stochastic gradient methods

PDF

Loucas Pillaud-Vivien, Alessandro Rudi, Francis Bach

TL;DR本研究研究了具有正定核和平方误差的二元分类问题，并研究了随机梯度方法的收敛速度。结果表明，当假设低噪声条件时，测试误差（分类误差）以指数速度收敛，而过量测试损失（平方损失）随着观测值的数量而慢慢收敛到零。

Abstract

We consider binary classification problems with positive definite kernels and square loss, and study the →

binary classification positive definite kernels square loss stochastic gradient methods convergence rates

发现论文，激发创造

一种带有指数收敛速率的随机梯度方法，适用于有限训练集

本文提出了一个新的随机梯度方法用于优化一组平滑函数的和，其中和是强凸的。与标准随机梯度方法在这个问题上的次线性收敛相比，该方法通过记忆之前的梯度值来实现线性收敛率。在机器学习的背景下，数值实验表明，该方法可以明显优于标准算法，不仅在优化训练误差方面，而且可以快速降低测试误差。

Feb, 2012

非参数方法下随机梯度下降在无噪声线性模型中的紧致收敛速率

本文探究噪声线性模型下单次训练中的随机梯度下降算法，证明了其收敛性和泛化误差的多项式收敛率，解释了结果在再生核希尔伯特空间框架下的意义，同时将分析应用于超出监督学习的场景。

Jun, 2020

可分离数据上的随机梯度下降：固定学习率的精确收敛

本文探讨了采用 SGD 进行机器学习的收敛性问题，特别是在采用线性可分数据及单调函数损失函数的情况下，证明了 SGD 在固定非零学习率的条件下可以收敛至零损失，对于分类问题中的单调函数损失函数（例如对数损失），每次迭代权重向量趋向于 $L_2$ 最大裕度向量，且损失以 $O (1/t)$ 的速率收敛。

Jun, 2018

（随机）梯度方法的统一最优分析

证明在 L - 平滑度条件下，随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差，且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.

Jul, 2019

普通最小二乘回归的更快、更好、更坚强的收敛速率

提出一种基于平均加速正则梯度下降的算法，通过细化初值和 Hessian 矩阵的假设，最优地优化回归问题，并证明其在偏差与方差之间具有最优性、大数据时初始化影响可达到 O（1/n2）以及对于维度 d 的依赖程度为 O（d/n）。

Feb, 2016

随机梯度下降优化算法的强误差分析

本文对随机梯度下降（SGD）优化算法进行了严格的强误差分析，并证明了在标准凸性类型的目标函数和 SGD 优化算法中出现的随机误差的松弛假设下，对于任意小的 ε 和任意大的 p，所考虑的 SGD 优化算法都会按照 1/2-ε 的阶数在强 L^p 意义下收敛到全局最小值。本文的证明重点在于首先运用动力系统中的 Lyapunov-type 函数理论技术开发出一般的 SGD 优化算法收敛技术，然后应用具有多项式结构的具体 Lyapunov-type 函数，并在出现在 Lyapunov-type 函数中的幂上执行归纳论证，以达到在强 L^p 意义下实现任意大 p 收敛率的目的。

Jan, 2018

基于收敛诊断的随机梯度下降的步长

本论文提出一种简单的统计程序，可以有效地检测恒定步长随机梯度下降法的转换和稳定阶段，从而快速获得收敛结果。这种统计程序在人工数据集和实际数据集上表现出最先进的性能，即便目标函数为二次时，传统的 Pflug 检验方法也不能提供足够的诊断。

Jul, 2020

SGD 对超参数模型的更快收敛和快速收敛，及加速感知器

通过研究表明，在现代机器学习中，采用具有极高表现力的模型进行训练，可以实现完全拟合或内插数据，从而得到零训练损失。我们证明，采用恒定步长随机梯度下降法（SGD）与 Nesterov 加速法具有相同的收敛速度，适用于凸和强凸函数。同时，我们发现，SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后，我们通过对合成和真实数据集的实验验证了我们的理论发现。

Oct, 2018

支持向量机指数收敛速率的案例

该研究论文研究了分类问题，并介绍了一种简单的机制来获得快速收敛率，以及它在支持向量机中的使用，证明了 SVM 可以展现指数收敛率而不需要假定艰难的 Tsybakov 边缘条件。

May, 2022

随机梯度算法的新收敛性特点

本文对随机梯度下降法（SGD）的收敛性进行了分析，提出了一种新的假设随机梯度较真实梯度的范数更小的分析方法，并在多个情境下证明了 SGD 的收敛性，拓展了当前一类可达到收敛性的学习率。

Nov, 2018