利用损失函数的二阶信息加速收敛的本地随机梯度下降
本文研究了在大规模机器学习中使用随机梯度下降的数据处理方法,特别是在数据划分和洗牌上的方法,以及不同洗牌方法下的全局和局部的收敛性和收敛速率,为大规模机器学习中的数据处理方法提供了重要的理论性结果和实验验证。
Sep, 2017
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达T ^ {1/2}个因子。
May, 2018
本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
Aug, 2018
本篇论文提出了一种新的SGD变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了1B字数据集的训练时间30%。
Nov, 2019
本论文提出了一种Variance Reduced Local SGD算法,通过消除工作人员之间的梯度方差依赖性,实现了更低的通信复杂性,以实现线性迭代加速,并在三个机器学习任务上得到了卓越的性能表现。
Dec, 2019
本文提出了一种称为STL-SGD算法的分布式机器学习算法,通过逐渐增加通信周期来降低通信复杂度并加速收敛速度,证明其具有与mini-batch SGD相同的收敛速度和线性加速,且在强凸或满足Polyak-Lijasiewicz条件的情况下具有较大的优势。
Jun, 2020
该论文提出了一种统一框架,用于在凸性和强凸性条件下分析本地SGD方法,适用于监督机器学习模型的分布式/联邦训练。作为该框架的应用,作者开发了多个新型优化器,特别是开发了第一个线性收敛的本地SGD方法,不需要任何数据同质性或其他强假设。
Nov, 2020
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021
本文利用现有的一阶数据异质性假设,为本地SGD提供了新的下界,显示了这些假设不足以证明本地更新步骤的有效性。此外,在相同的假设下,我们证明了加速小批量SGD的极小-极大优化性质,完全解决了几个问题类的分布式优化。我们的结果强调了需要更好的数据异质性模型,以了解本地SGD在实践中的有效性。为此,我们考虑了高阶平滑性和异质性假设,并提供了新的上界,暗示了当数据异质性较低时,本地SGD优于小批量SGD。
May, 2024
本文解决了在异构数据条件下,分布式训练模型时使用局部梯度下降方法的收敛性问题,特别是在局部步骤增多时性能迅速降低的现象。通过分析本地梯度下降的隐式偏差,作者发现即使在过参数化的情况下,聚合的全局模型仍然能以相同的方向收敛到集中模型,提出了一种改进的局部梯度下降方法,并通过理论和实验证明其有效性,对机器学习模型的分布式训练具有重要影响。
Dec, 2024