使用平均随机梯度下降实现优化的单遍大规模学习
本文探讨了随机梯度下降算法的加速收敛方法,提出了一种自适应加权平均方案,并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明,该自适应加权平均方案不仅在统计率上是最优的,而且在非渐近收敛方面也具有有利的效果。
Jul, 2023
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
我们比较了随机平均梯度 (SAG) 与一些经典机器学习优化算法,并提出了将 SAG 与动量算法和 Adam 相结合的方法,这些组合在优化函数时表现出更高的速度和更好的性能。
Jul, 2023
采用同步 K 步均值随机梯度下降算法,解决机器学习问题,证明 K-AVG 算法的收敛性,解释为什么需要 K 步延迟,表明在大规模数据集上,K-AVG 算法优于 ASGD 算法。
Aug, 2017
我们研究了加速随机梯度下降(ASGD)在过参数化线性回归中的泛化情况,建立了数据协方差矩阵的每个特征子空间下的 ASGD 的过量风险界限,结果显示出 ASGD 在小特征值子空间中的偏差误差以指数衰减的速度优于 SGD,而在大特征值子空间中,偏差误差的衰减速度较慢,且 ASGD 的方差误差始终大于 SGD 的。我们的研究表明,当初始化向量与真实权重向量的差异主要集中在小特征值子空间时,ASGD 可以优于 SGD。此外,当我们将分析专门应用于强凸设置下的线性回归问题时,得到的偏差误差界限比已知结果更紧。
Nov, 2023
提出一种基于平均隐式(averaged implicit)随机梯度下降的迭代过程,旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。
May, 2015
本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中,并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解,该算法在训练深度神经网络等问题上表现良好。
Mar, 2019
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015