通过加速梯度方法实现更好的小批量算法
我们扩展了 Approximate-Proximal Point 方法,在随机凸优化问题中应用包括随机次梯度、近端点和束方法,同时提出了更快的模型算法和加速方案,保持了 Approximate-Proximal Point 算法的鲁棒性,同时提供了更快的收敛速度和更低的界限。我们通过实证测试证实了理论结果的可行性。
Jan, 2021
本文提出了一种基于离线方法的凸优化方法,通过查询梯度谐和和的方法实现自适应保证,在平滑和非平滑条件下都能实现快速收敛,同时还可以推广到随机梯度下降算法中,提供了一种根据梯度幅值自适应选择 minibatch 大小的方法。
May, 2017
本文定义了用于 graduated optimization 的一类新的非凸函数,讨论了其充分条件,并对 graduated optimization 算法的收敛性进行了分析。研究发现,带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察,解释了为何大批量大小会陷入尖锐的局部最小值,以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小,并给出了最佳的学习率调度方法。此外,分析了一种新的 graduated optimization 框架,该框架使用逐渐减小的学习率和逐渐增大的批量大小,并报告了支持我们理论发现的图像分类的实验结果。
Nov, 2023
本文研究一种用于 mini-batch 的梯度聚合算子,名为 AdaBatch。该算子可用于随机梯度方法,并在稀疏优化问题中大大加速训练过程,同时在保持样本效率的前提下增加批处理大小。实验显示,在光滑凸优化中,该方法甚至可以在固定样本数量的情况下,通过增加批处理大小获得更低的损失。
Nov, 2017
提出了一种利用小批量方案改进半随机梯度下降(S2GD)方法的 mS2GD,该方法主要用于最小化一个由很多光滑凸函数的平均值和一个简单的非光滑凸正则化器组成的强凸函数,分析表明,该方法在具有小批量效应和简单并行实现方案的情况下,可以加速算法的收敛过程。
Apr, 2015
研究如何在存在梯度估计噪声的情况下,通过使用多阶段加速算法,探讨最小化强凸光滑函数的问题,并通过采用特定的重启和参数选择,实现在确定性和随机情况下的最佳速率,以及在不知道噪声特性的情况下操作。
Jan, 2019
本文研究加速随机梯度方法在最小二乘回归问题中的应用,通过对加速随机梯度下降作为随机过程的深入分析,证明了引入加速能够使其对统计误差具有鲁棒性,并提出了一种优于随机梯度下降的加速随机梯度方法。
Apr, 2017
文中讨论了一种基于随机梯度估计的优化算法,解决了 Lan (2012), Cotter 等人 (2011) 和 Liu 与 Belkin (2018) 所提出的一些局限性,实现了更好的并行加速效率.
Jun, 2021
基于 SGD,本文提出了一种统一框架来解决随机优化中非凸条件下的收敛分析问题,并发现了两种插入加速方法:拒绝加速和随机向量加速,理论上证明这两种方法可以直接提高收敛速度。
Feb, 2024