随机梯度下降优化方法的适应性
本文提出了一个新的随机梯度方法用于优化一组平滑函数的和,其中和是强凸的。与标准随机梯度方法在这个问题上的次线性收敛相比,该方法通过记忆之前的梯度值来实现线性收敛率。在机器学习的背景下,数值实验表明,该方法可以明显优于标准算法,不仅在优化训练误差方面,而且可以快速降低测试误差。
Feb, 2012
研究表明,我们开发并分析了一种基于梯度的优化过程,我们称之为随机控制随机梯度(SCSG)。作为SVRG算法集合中的一员,SCSG利用了两个尺度上的梯度估计,在快速尺度上的更新次数受到几何随机变量的控制。与大多数现有算法不同,SCSG的计算成本和通信成本不一定与样本大小n成线性比例关系;实际上,当目标精度较低时,这些成本与n无关。对真实数据集的实验评估确认SCSG的有效性。
Sep, 2016
本文提出了针对复合目标强凸的情况下,带有方差约束的随机梯度下降法,其收敛速度优于传统的随机梯度下降法,同时常数因子也更小,只与输入数据的方差有关。
Oct, 2016
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过Spark分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
通过研究广义AdaGrad步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现O(1/T)到O(1/根号T)的插值(带有对数项)。
May, 2018
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的AdaGrad-Norm的收敛速度,并表明AdaGrad-Norm在假设与最佳调优的非自适应SGD相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
本论文主要介绍了一些关于自适应算法的研究工作,包括在随机优化、深度神经网络和非凸优化等方面的应用,提出了新算法并进行了理论和实验分析。其中,SignSGD算法具有很好的理论性质和性能,并能够自适应地适应平滑性条件。
Jun, 2023