语言建模的异步局部 SGD 训练

Jan, 2024

Asynchronous Local-SGD Training for Language Modeling

Bo Liu, Rachita Chhaparia, Arthur Douillard, Satyen Kale, Andrei A. Rusu...

TL;DR本篇论文通过实证研究异步 Local-SGD 对训练语言模型的影响，发现异步 Local-SGD 相较于同步对应方法虽然更频繁地更新模型参数，但需要更多迭代才能达到收敛。主要挑战是在工作者梯度失效时全局参数的动量加速。提出了一种新方法，利用延迟 Nesterov 动量更新并根据计算速度调整工作者的本地训练步骤。在 C4 数据集上评估，该方法在每次更新步骤的困惑度方面与同步 Local-SGD 性能相当，并在墙钟时间方面显著超越其。

Abstract

Local stochastic gradient descent (local-sgd), also referred to as federated averaging, is an approach to distributed optimization where each device performs more than one SGD update per communication. This work presents an empirical study of {\it →

local-sgd asynchronous language models momentum acceleration nesterov momentum

发现论文，激发创造

去中心化深度学习的本地异步随机梯度下降

本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步，实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。

Mar, 2022

弹性平均随机梯度下降的深度学习

在通信约束之下的并行计算环境下研究深度学习的随机优化问题，提出了一种新的基于弹性力的算法，可以使本地变量更加波动以允许更多的探索，同时减少了本地工作者与主节点之间的通信，从而加快了训练速度和提高了效率

Dec, 2014

周期平均的本地随机梯度下降：更紧密的分析和自适应同步

本文研究了一种名为 local distributed SGD 的分布式优化算法，其中数据在计算节点之间进行划分，计算节点进行本地更新，定期交换模型以进行平均化，并对其进行收敛分析，结果表明它可以大大降低通信成本并且适用性比当前理论推测的更为广泛，同时提出了一种自适应同步方案，验证理论和方案的实验结果在 AWS EC2 云和内部 GPU 集群上运行良好。

Oct, 2019

大步长同步分布式 SGD 的通信权衡

本文提出了一种名为 local-SGD 的算法，通过逐步同步而非每一步都进行通信提高了通信效率，同时在大步长情况下提供了自适应下限比较。

Apr, 2019

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

联邦学习中局部下降方法的收敛性

本文旨在研究在异构样本上进行非凸优化的联邦分布式学习，具体而言，我们将分析分布式方法相对于均匀样本中的隐含方差减少特性在异构样本中的应用，并证明其在广义的非凸和条件下的收敛性与最优性.

Oct, 2019

混合全局和局部模型的联邦学习

提出针对联邦学习模型的新型优化公式，通过寻求全局模型与本地模型之间的平衡，使各参与设备能够从其私有数据中学习，而不需要通信。此方法类似于联邦平均 /local SGD，但能够改善具有异构数据的问题的通信，同时发现个性化能够降低通信复杂度。

Feb, 2020

本地 SGD 收敛快且通信量小

本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛，并且与工人数量和小批量大小呈线性加速关系，其中通信轮数可以减少长达 T ^ {1/2} 个因子。

May, 2018

局部 SGD：统一理论和新高效方法

该论文提出了一种统一框架，用于在凸性和强凸性条件下分析本地 SGD 方法，适用于监督机器学习模型的分布式 / 联邦训练。作为该框架的应用，作者开发了多个新型优化器，特别是开发了第一个线性收敛的本地 SGD 方法，不需要任何数据同质性或其他强假设。

Nov, 2020

分散式 ASGD 的收敛分析

我们提供了分布式和异步随机梯度下降（DASGD）的收敛速度分析，并证明了它对于一系列条件是有效的。

Sep, 2023