非强凸最小二乘问题的加速随机梯度下降
提出一种基于平均加速正则梯度下降的算法,通过细化初值和 Hessian 矩阵的假设,最优地优化回归问题,并证明其在偏差与方差之间具有最优性、大数据时初始化影响可达到 O(1/n2)以及对于维度 d 的依赖程度为 O(d/n)。
Feb, 2016
本文研究加速随机梯度方法在最小二乘回归问题中的应用,通过对加速随机梯度下降作为随机过程的深入分析,证明了引入加速能够使其对统计误差具有鲁棒性,并提出了一种优于随机梯度下降的加速随机梯度方法。
Apr, 2017
通过利用指数步长和随机线性搜索等技术,使得随机梯度下降算法适应不同噪声水平和问题相关的常数,可以在强凸函数的条件下,取得与理论最优相近的收敛速度,同时能够有效地处理噪声和数据不凸的情况。
Oct, 2021
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
研究了神经网络在最小二乘设置中的应用,讨论了随机梯度下降与最终迭代的相关性,并在统计和优化双重视角下给出了多项式瞬时收敛率的解读,建立与再生核希尔伯特空间的联系。
Feb, 2021
本文讨论了一类随机光滑凸优化问题,其噪声的方差与算法产生的近似解的次优性有关,提出了两个非欧几里德加速随机逼近算法,即随机加速梯度下降(SAGD)和随机梯度外推(SGE),并证明了在适当的条件下,这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。
Jul, 2023
通过研究表明,在现代机器学习中,采用具有极高表现力的模型进行训练,可以实现完全拟合或内插数据,从而得到零训练损失。我们证明,采用恒定步长随机梯度下降法(SGD)与 Nesterov 加速法具有相同的收敛速度,适用于凸和强凸函数。同时,我们发现,SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后,我们通过对合成和真实数据集的实验验证了我们的理论发现。
Oct, 2018
本文探究噪声线性模型下单次训练中的随机梯度下降算法,证明了其收敛性和泛化误差的多项式收敛率,解释了结果在再生核希尔伯特空间框架下的意义,同时将分析应用于超出监督学习的场景。
Jun, 2020
本文提出了一种加速的非平滑随机梯度下降算法 - ANSGD,该算法利用常见非平滑损失函数的结构来实现一类问题(包括 SVM)的最优收敛速率,是第一个能够实现最优 O(1/t)率的随机算法来最小化非平滑损失函数的算法,经实证比较表明,ANSGD 明显优于以前的次梯度下降算法,包括 SGD。
May, 2012