我们能学习高效通信优化器吗？

Dec, 2023

Can We Learn Communication-Efficient Optimizers?

Charles-Étienne Joseph, Benjamin Thérien, Abhinav Moudgil, Boris Knyazev, Eugene Belilovsky

TL;DR通过学习优化器的方法，本研究证明了学习优化器在保持通信高效性的同时，能够明显优于本地SGD及其衍生变体，甚至在未见过的更大规模数据集、架构（如ImageNet和ViTs）以及语言模型等方面具有推广性，从而展示了学习优化器改进通信高效分布式学习的潜力。

Abstract

communication-efficient variants of SGD, specifically local sgd, have received a great deal of interest in recent years. These approaches compute multiple gradient steps locally, that is on each worker, before av

发现论文，激发创造

不使用大型小批次，使用本地化SGD

本文提出了一种后局部随机梯度下降（SGD）方法，并通过标准基准测试表明，相比大批量训练，该方法显著提高了模型的泛化性能，同时保持相同的效率和可扩展性。此外，本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。

Aug, 2018

局部更新SGD中的最佳错误-运行时间平衡的自适应通信策略

本文介绍 AdaComm，一种自适应通信策略，可以更快地训练深度神经网络，使大规模机器学习训练更 robust 且具有更快的收敛速度。

Oct, 2018

大步长同步分布式 SGD 的通信权衡

本文提出了一种名为local-SGD的算法，通过逐步同步而非每一步都进行通信提高了通信效率，同时在大步长情况下提供了自适应下限比较。

Apr, 2019

Local AdaAlter: 基于自适应学习率的通信高效性随机梯度下降

本篇论文提出了一种新的SGD变体算法，降低了通信开销及提高自适应学习率，经实验证明，该算法显著降低了通信开销，进而缩短了1B字数据集的训练时间30%。

Nov, 2019

降低通信复杂度的方差减少本地随机梯度下降

本论文提出了一种Variance Reduced Local SGD算法，通过消除工作人员之间的梯度方差依赖性，实现了更低的通信复杂性，以实现线性迭代加速，并在三个机器学习任务上得到了卓越的性能表现。

Dec, 2019

基于深度神经网络的通信高效分布式随机AUC最大化

本文提出了一种基于非凸凹重构的AUC最大化的通信高效分布式优化算法，通过减少通信轮次提高了算法的并行性能，并在多个测试数据集中展示了其有效性和可靠性。

May, 2020

局部随机梯度下降上升：收敛分析与通信效率

本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销，可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。

Feb, 2021

面向通信高效的自适应梯度方法

提出了一种适用于联邦学习的自适应梯度方法，该方法能够保证收敛和通信效率。

Sep, 2021

分布式本地梯度方法的通信高效自适应批量大小策略

现代深度神经网络通常需要分布式训练以应对其巨大的规模，但当工作节点数量增加时，通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略，用于局部梯度方法，通过自适应地增加批量大小来减小小批量梯度的方差，提供了在均匀数据条件下的收敛性保证，并通过图像分类实验支持我们的说法，证明了我们的策略在训练和泛化中的有效性。

Jun, 2024

分布式优化加速：基于原始对偶视角的局部步骤

在分布式机器学习中，有效地进行具有不同数据分布的多个代理的训练面临着重大挑战。本研究解决了分布式优化问题中的集中式和分散式设置，并提出了一种基于原始对偶方法的新方法，即（加速）梯度上升的多随机梯度下降（GA-MSGD），它自然地融合了本地更新，实现了线性收敛，并且几乎达到了最优的通信复杂性。

Jul, 2024