随机平均梯度下降法最小化有限和
我们比较了随机平均梯度 (SAG) 与一些经典机器学习优化算法,并提出了将 SAG 与动量算法和 Adam 相结合的方法,这些组合在优化函数时表现出更高的速度和更好的性能。
Jul, 2023
该研究提出了一种针对小批量优化问题的新优化方法 SAGA,通过引入一种步长参数,在强凸光滑问题上获得了加速收敛率,同时应用于分割算子方法难以解决的许多领域。
Feb, 2016
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将 SGD 迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个 SGD 迭代的次优性的程度随 T 的轮次按 O(log(T)/sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随 T 按 O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本研究提出了两种基于随机梯度下降的算法 (即随机样本平均梯度 (SSAG) 和随机 SAGA (S-SAGA)),以解决使用随机噪声来影响数据集时的期望风险最小化问题,其中 SSAG 收敛速度比 SGD 快,而 S-SAGA 在迭代复杂度和存储方面均优于 S-MISO,并且 SSAG 的存储成本不依赖样本大小,而 S-SAGA 的存储成本与未被扰动的数据上的方差降低方法相同。
Jun, 2018
该论文研究了关于具有本地数据样本批量的节点网络的分散式非凸有限和最小化问题,并提出了一种名为 GT-SAGA 的单时间尺度随机增量梯度法,通过利用节点级方差、网络级梯度跟踪等手段优化它的性能,这种方法在特定条件下起到了优于现有方法性能的作用,该文对此进行了详细分析。
Nov, 2020
本文讨论了一类随机光滑凸优化问题,其噪声的方差与算法产生的近似解的次优性有关,提出了两个非欧几里德加速随机逼近算法,即随机加速梯度下降(SAGD)和随机梯度外推(SGE),并证明了在适当的条件下,这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。
Jul, 2023
开发了基于 Stochastically Controlled Stochastic Gradient Method 的算法,可用于非凸的有限和优化问题,并取得了优于随机梯度下降的表现。在满足 Polyak-Lojasiewicz Condition 约束的函数中,同样实现了加速优化,实验表明在训练多层神经网络方面,该方法优于随机梯度下降。
Jun, 2017
通过提出一种新的 SAGA 变体,并构建新的随机 Lyapunov 函数,我们展示了一种通用和灵活的方法,可用于训练监督学习模型中极大数量的平滑函数之和的平均值的最小化问题,这种方法可以包括任意的重要性抽样和小批量处理方法,并展示了该方法的迭代复杂度分析和平滑和强凸情形下的线性收敛率,从而在对于有限总和问题的原始 / 对偶方法的复杂性的理解上迈出了重要一步。
Jan, 2019
本文提出了一个新的随机梯度方法用于优化一组平滑函数的和,其中和是强凸的。与标准随机梯度方法在这个问题上的次线性收敛相比,该方法通过记忆之前的梯度值来实现线性收敛率。在机器学习的背景下,数值实验表明,该方法可以明显优于标准算法,不仅在优化训练误差方面,而且可以快速降低测试误差。
Feb, 2012