深度学习的八卦训练

Nov, 2016

Gossip training for deep learning

Michael Blot, David Picard, Matthieu Cord, Nicolas Thome

TL;DR本研究旨在解决加速卷积神经网络训练的问题，其中使用了一种适用于随机梯度下降的分布式方法。这种并行优化设置使用多个线程，每个线程在本地变量上应用单独的梯度下降，并提出了一种具有吸取交际算法启发式的共享不同线程信息的新方法，具有良好的一致收敛性和完全异步和分散式的优势，该方法称为 GoSGD。我们在 CIFAR-10 上将此方法与最近的 EASGD 作比较，结果鼓舞人心。

Abstract

We address the issue of speeding up the training of convolutional networks. Here we study a distributed method adapted to stochastic gradient des

convolutional networks distributed method stochastic gradient descent asynchronous decentralized

发现论文，激发创造

基于八卦通讯的异步梯度下降算法的可扩展深度学习

本研究提出了基于疏泊梯度下降算法的 GossipGraD 聊天协议，用于大规模系统的深度学习算法。通过优化 GossipGraD 的五个显著特征，最终实现对 ImageNet-1K 数据集的高效计算和分类。

Mar, 2018

去中心化深度学习的本地异步随机梯度下降

本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步，实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。

Mar, 2022

更快的分布式深度神经网络训练：计算和通信解耦合的随机梯度下降

本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法，实现了计算和通信的并行处理，有效减少了通信开销，较传统分布式 SGD 算法具有更高的时间加速度，在 16 个 GPU 上的 ResNet18 和 VGG16 深度神经网络训练表现出 2-3 倍的速度提升。

Jun, 2019

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

自适应 SGD 分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

周期全局平均化加速 Gossip SGD

本文介绍了一种名为 Gossip-PGA 的算法，该算法将定期全局平均合并到 Gossip SGD 中，通过控制平均周期 H，可以控制网络拓扑结构的影响，而此算法在大规模训练中存在这样的优点，它使得瞬变阶段的收敛速度优于 Local SGD 且远优于原有的 Gossip SGD。

May, 2021

异步分布式半随机梯度优化

本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法，采用变量规约技术，可使用常量的学习率，并保证线性收敛到最优解，在 Google 云计算平台上的实验表明，该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。

Aug, 2015

弹性平均随机梯度下降的深度学习

在通信约束之下的并行计算环境下研究深度学习的随机优化问题，提出了一种新的基于弹性力的算法，可以使本地变量更加波动以允许更多的探索，同时减少了本地工作者与主节点之间的通信，从而加快了训练速度和提高了效率

Dec, 2014

分布式同步 SGD 的再探讨

本文研究了分布式训练深度学习模型时采用同步优化的可行性，发现同步优化虽然会浪费一些等待时间，但采用备用工作者的方式可以避免异步噪声并加速收敛，同时能够在保证准确性的前提下提高测试准确率。

Apr, 2016

快速和通信高效的本地更新分散学习

本文设计了一种名为 DIGEST 的快速和通信高效的异步分散式学习机制，通过借鉴 Gossip 和随机游走的思想和关注随机梯度下降（SGD），在本地 SGD 算法基础上构建了一种异步分散式算法，并设计了单流和多流的 DIGEST，研究了其收敛性和与 IID 和无 IID 分布的性能表现。

Jul, 2023