随机梯度下降优化方法的适应性
研究表明,我们开发并分析了一种基于梯度的优化过程,我们称之为随机控制随机梯度(SCSG)。作为 SVRG 算法集合中的一员,SCSG 利用了两个尺度上的梯度估计,在快速尺度上的更新次数受到几何随机变量的控制。与大多数现有算法不同,SCSG 的计算成本和通信成本不一定与样本大小 n 成线性比例关系;实际上,当目标精度较低时,这些成本与 n 无关。对真实数据集的实验评估确认 SCSG 的有效性。
Sep, 2016
开发了基于 Stochastically Controlled Stochastic Gradient Method 的算法,可用于非凸的有限和优化问题,并取得了优于随机梯度下降的表现。在满足 Polyak-Lojasiewicz Condition 约束的函数中,同样实现了加速优化,实验表明在训练多层神经网络方面,该方法优于随机梯度下降。
Jun, 2017
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本论文主要介绍了一些关于自适应算法的研究工作,包括在随机优化、深度神经网络和非凸优化等方面的应用,提出了新算法并进行了理论和实验分析。其中,SignSGD 算法具有很好的理论性质和性能,并能够自适应地适应平滑性条件。
Jun, 2023
本研究提出了一种有偏随机梯度下降算法(BSGD),并在不同结构假设下研究了偏差 - 方差权衡。我们确定了 BSGD 的样本复杂度,包括强凸、凸和弱凸目标,在平滑和非平滑条件下,并为凸 CSO 目标提供相匹配的下界。通过进行广泛的数值实验,我们证明了 BSGD 在鲁棒逻辑回归,模型无关元学习(MAML)和工具变量回归(IV)中的性能。
Feb, 2020
介绍了一种框架,用于解决凸随机极小化问题,其中目标函数变化缓慢,通过应用选择的优化算法,例如随机梯度下降(SGD),来顺序地解决极小化问题。有两种跟踪标准来评估近似极小值的质量,一种是基于对均值轨迹的准确性,另一种是基于高概率的准确性。提供了估计极小值变化的技术,以及分析结果表明最终估计会上限极小值的变化。这个估计量提供了样本量选择规则,保证了足够的时间步长使跟踪标准得到满足。实验表明,该估计方法在实践中提供了所需的跟踪精度,同时在每个时间步中使用的样本数量方面是高效的。
Oct, 2016
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号 T)的插值(带有对数项)。
May, 2018
本论文提出了一种随机优化方法,该方法通过自适应地控制梯度近似计算中使用的样本量来减少方差,使用内积测试来决定增加样本量,并通过逻辑回归问题的数值实验验证了该算法的有效性。
Oct, 2017
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015