关于 SARAH 及超出其的收敛性
该论文提出了改进的 SARAH 算法并证明其最劣情况复杂性与通常常数因子内与阈值相关,用于求解随机一阶优化算法的无限和光滑非凸目标函数,同时提出 SARAH++ 算法,并在各种数据集上进行数值实验以验证其实用性。
Jan, 2019
本文提出了一种名为 SARAH 的随机递归梯度算法及其改进版 SARAH +,以优化有限累加和问题,并证明了该算法在强凸情况下具有线性收敛速率。
Mar, 2017
提出了一种新的随机一阶算法框架来解决随机复合非凸优化问题,该算法覆盖了有限和期望设置,其中算法仅需要非凸目标项的平均光滑性假设和附加的有界方差假设,并证明了算法可以实现最佳复杂度界限。
Feb, 2019
本文研究分析了随机递归梯度算法 (StochAstic Recursive grAdient algoritHm, SARAH) 的 mini-batch 版本,用于解决非凸损失函数的经验损失最小化问题。我们提出了一种子线性收敛率 (对于一般非凸函数) 和一种线性收敛率 (对于梯度主导函数),这两种方法相比其他现代非凸损失随机梯度算法具有一些优势。
May, 2017
ZeroSARAH 是一种新的方差减少方法,用于分布式学习中处理大量非凸函数的平均值,可以在不需要计算全梯度的情况下实现,并在标准和分布式设置下取得新的最优结果。
Mar, 2021
本研究开发了一种基于 Azuma-Hoeffding 类型边界的新的无维度维数的 martingale 差异序列的累加范数,利用这一结果,我们为所提出的 Prob-SARAH 算法中的梯度范数估计器提供了高概率边界,该算法是 StochAstic Recursive grAdient algoritHm(SARAH)的改进版本,它是一种具有最优计算复杂性的方差减小算法,用于有限和问题的期望。Prob-SARAH 的概率复杂性与最佳期望结果相匹配,并且经验实验表明 Prob-SARAH 在真实数据集上相对于其他流行算法具有更优异的概率性能。
Jan, 2024
该研究提出了两种新的变体的随机 Polyak 步长和随机线性搜索算法,名为 AdaSPS 和 AdaSLS,它们保证了在非插值设置下的收敛,并在训练超参数化模型时维持凸函数和强凸函数的次线性和线性收敛速度。此外,通过引入方差缩减技术,这些算法能够在次优情况下进行梯度评估,达到 O(ε)次优性,从而改进了非插值区域 AdaSPS 和 AdaSLS 的较慢 O(1/ε^2)收敛速度。实验验证了算法的理论有效性和稳健性。
Aug, 2023
本研究提出了一种使用 Barzilai-Borwein 步长、平均值和内循环长度来调整参数的近乎无需调参的 SVRG 和 SARAH 算法,通过 “估计序列” 方法重新审视了这些算法,并在内循环过程中进行了简单而有效的迭代次数调整,提高了方法的性能。
Aug, 2019
本文研究标签平滑正则化(LSR)在随机梯度下降等随机算法训练深度神经网络中的理论及其优化效果,发现采用 LSR 能够降低方差加速收敛,提出了一种名为两阶段标签平滑算法(TSLA)的策略,在训练的前期使用 LSR,后期不再使用,通过实验证明其在训练 ResNet 模型上优于基线算法。
Jun, 2020
本研究针对线性函数近似下的 Expected Sarsa 算法的收敛问题,通过提出收敛性较好的 Gradient Expected Sarsa 算法,并应用 Lyapunov 函数技术分析其性能,得到较优实验结果。
Dec, 2020