随机梯度方法的测试误差的指数收敛
本文提出了一个新的随机梯度方法用于优化一组平滑函数的和,其中和是强凸的。与标准随机梯度方法在这个问题上的次线性收敛相比,该方法通过记忆之前的梯度值来实现线性收敛率。在机器学习的背景下,数值实验表明,该方法可以明显优于标准算法,不仅在优化训练误差方面,而且可以快速降低测试误差。
Feb, 2012
本文探究噪声线性模型下单次训练中的随机梯度下降算法,证明了其收敛性和泛化误差的多项式收敛率,解释了结果在再生核希尔伯特空间框架下的意义,同时将分析应用于超出监督学习的场景。
Jun, 2020
本文探讨了采用 SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于 $L_2$ 最大裕度向量,且损失以 $O (1/t)$ 的速率收敛。
Jun, 2018
证明在 L - 平滑度条件下,随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差,且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.
Jul, 2019
提出一种基于平均加速正则梯度下降的算法,通过细化初值和 Hessian 矩阵的假设,最优地优化回归问题,并证明其在偏差与方差之间具有最优性、大数据时初始化影响可达到 O(1/n2)以及对于维度 d 的依赖程度为 O(d/n)。
Feb, 2016
本文对随机梯度下降(SGD)优化算法进行了严格的强误差分析,并证明了在标准凸性类型的目标函数和 SGD 优化算法中出现的随机误差的松弛假设下,对于任意小的 ε 和任意大的 p,所考虑的 SGD 优化算法都会按照 1/2-ε 的阶数在强 L^p 意义下收敛到全局最小值。本文的证明重点在于首先运用动力系统中的 Lyapunov-type 函数理论技术开发出一般的 SGD 优化算法收敛技术,然后应用具有多项式结构的具体 Lyapunov-type 函数,并在出现在 Lyapunov-type 函数中的幂上执行归纳论证,以达到在强 L^p 意义下实现任意大 p 收敛率的目的。
Jan, 2018
本论文提出一种简单的统计程序,可以有效地检测恒定步长随机梯度下降法的转换和稳定阶段,从而快速获得收敛结果。这种统计程序在人工数据集和实际数据集上表现出最先进的性能,即便目标函数为二次时,传统的 Pflug 检验方法也不能提供足够的诊断。
Jul, 2020
通过研究表明,在现代机器学习中,采用具有极高表现力的模型进行训练,可以实现完全拟合或内插数据,从而得到零训练损失。我们证明,采用恒定步长随机梯度下降法(SGD)与 Nesterov 加速法具有相同的收敛速度,适用于凸和强凸函数。同时,我们发现,SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后,我们通过对合成和真实数据集的实验验证了我们的理论发现。
Oct, 2018
该研究论文研究了分类问题,并介绍了一种简单的机制来获得快速收敛率,以及它在支持向量机中的使用,证明了 SVM 可以展现指数收敛率而不需要假定艰难的 Tsybakov 边缘条件。
May, 2022
本文对随机梯度下降法(SGD)的收敛性进行了分析,提出了一种新的假设随机梯度较真实梯度的范数更小的分析方法,并在多个情境下证明了 SGD 的收敛性,拓展了当前一类可达到收敛性的学习率。
Nov, 2018