本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
Aug, 2018
本文介绍 AdaComm,一种自适应通信策略,可以更快地训练深度神经网络,使大规模机器学习训练更 robust 且具有更快的收敛速度。
Oct, 2018
本文提出了一种名为local-SGD的算法,通过逐步同步而非每一步都进行通信提高了通信效率,同时在大步长情况下提供了自适应下限比较。
Apr, 2019
本篇论文提出了一种新的SGD变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了1B字数据集的训练时间30%。
Nov, 2019
本论文提出了一种Variance Reduced Local SGD算法,通过消除工作人员之间的梯度方差依赖性,实现了更低的通信复杂性,以实现线性迭代加速,并在三个机器学习任务上得到了卓越的性能表现。
Dec, 2019
本文提出了一种基于非凸凹重构的AUC最大化的通信高效分布式优化算法,通过减少通信轮次提高了算法的并行性能,并在多个测试数据集中展示了其有效性和可靠性。
May, 2020
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021
提出了一种适用于联邦学习的自适应梯度方法,该方法能够保证收敛和通信效率。
Sep, 2021
现代深度神经网络通常需要分布式训练以应对其巨大的规模,但当工作节点数量增加时,通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略,用于局部梯度方法,通过自适应地增加批量大小来减小小批量梯度的方差,提供了在均匀数据条件下的收敛性保证,并通过图像分类实验支持我们的说法,证明了我们的策略在训练和泛化中的有效性。
Jun, 2024
在分布式机器学习中,有效地进行具有不同数据分布的多个代理的训练面临着重大挑战。本研究解决了分布式优化问题中的集中式和分散式设置,并提出了一种基于原始对偶方法的新方法,即(加速)梯度上升的多随机梯度下降(GA-MSGD),它自然地融合了本地更新,实现了线性收敛,并且几乎达到了最优的通信复杂性。
Jul, 2024