分布式训练的通信优化：架构、进展和机遇

Mar, 2024

分布式训练的通信优化：架构、进展和机遇

Communication Optimization for Distributed Training: Architecture, Advances, and Opportunities

Yunze Wei, Tianshuo Hu, Cong Liang, Yong Cui

TL;DR大规模深度神经网络的分布式训练通信优化的研究，提出了一个五层范式，强调协同设计的机会。

Abstract

The past few years have witnessed the flourishing of large-scale deep neural network models with ever-growing parameter numbers. Training such large-scale models typically requires massive memory and computing resources that exceed those of a single GPU, necessitating distributed training

large-scale deep neural network distributed training communication optimization paradigm collaboration designs

发现论文，激发创造

高效通信的大规模分布式深度学习综述

这篇文章调查了 2018 年至 2023 年期间关于算法和技术的文献，旨在实现大规模分布式深度学习中的高效通信，包括算法、框架和基础设施。具体而言，我们首先介绍了在大规模分布式训练中模型同步和通信数据压缩方面的高效算法。接下来，我们介绍了与分布式训练和推理中资源分配和任务调度相关的高效策略。此后，我们介绍了现代通信基础设施中使用的最新技术，重点研究了大规模和异构环境下通信开销的影响。最后，我们通过对大规模语言模型的分布式训练进行案例研究，展示了如何在实际情况中应用这些技术。这篇文章旨在为研究人员提供对大规模分布式深度学习的现状全面的理解，并揭示在这一领域中通信高效解决方案的有希望的未来研究方向。

Apr, 2024

面向通信高效的自适应梯度方法

提出了一种适用于联邦学习的自适应梯度方法，该方法能够保证收敛和通信效率。

Sep, 2021

异步张量并行通信最小化

本研究提出 Tensor3D 算法来高效地训练具有数十亿参数的神经网络，能够最小化通信引起的空闲时间，通过智能神经网络参数分布、并行训练过程的超分解以及通信模型，优化通信，相较于 Megatron-LM，Tensor3D 将 28B 参数 CNN 在 256 个 A100 GPU 上的训练时间缩短了近 60%。

May, 2023

大规模深度学习优化：综述

本文概述了在大规模深度学习中如何优化模型的准确性和效率，讨论了优化中使用的算法、大批量训练中出现的泛化差距问题，并回顾了最新的解决通信负担和减少内存占用的策略。

Nov, 2021

深度神经网络分布式训练：并行可扩展性的理论和实践的极限

本文研究 DNN 分布式训练的主要瓶颈问题，结果显示，当前最先进的方法 SGD 存在大量通信问题，而理论上的约束也使得 DNN 训练的扩展性较差。

Sep, 2016

探索卷积神经网络并行化中的隐藏维度

本文提出了一种层级并行的方法来训练深度卷积神经网络，在这种方法中，每层神经网络都可以应用不同的并行策略以优化训练，通过解决图搜索问题来协同优化每个层的并行化方式。实验结果表明，与现有的并行化方法相比，采用该方法可以提高训练吞吐量，降低通信成本，实现更好的多 GPU 可扩展性，并保持原始网络的准确性。

Feb, 2018

使用 C4 提升大规模并行训练效率：一种基于通信的方法

本文介绍了一种基于通信的解决方案 C4，通过利用并行训练中集体通信的周期性和均匀性特征，快速识别故障组件，避免了资源浪费，并且通过有效的流量规划大大降低了网络拥塞。该解决方案在生产系统中得到了广泛实施，削减了因错误导致的开销约 30％，并提高了某些应用程序的运行时性能约 15％。

Jun, 2024

深度学习并行和分布式技术揭秘：并发性分析深入研究

本文综述了 Deep Neural Networks 的并行处理问题，探讨了并行化分布式架构，并详细介绍了并发类型、异步随机优化、通信方案、神经架构搜索等不同方向的研究方法，最终提出了深度学习并行处理的潜在方向。

Feb, 2018

云、移动和边缘环境中的分布式学习综述

在深度学习、卷积神经网络和大型语言模型的时代，机器学习模型变得越来越复杂，需要大量的计算资源进行推理和训练。为了解决这个挑战，分布式学习已经成为一种关键方法，通过在各种设备和环境中进行并行化来实现。本调查研究对分布式学习的领域进行了探索，涵盖了云端和边缘设置。我们深入研究了数据和模型并行性的核心概念，研究了如何在不同维度和层次上对模型进行分割以优化资源利用和性能。我们分析了针对不同层类型的各种分割方案，包括全连接层、卷积层和循环层，突出了计算效率、通信开销和内存限制之间的权衡。这项调查研究通过比较和对比不同背景下的分布式学习方法，为未来的研究和发展提供了宝贵的见解。

May, 2024

大规模神经网络训练调查

本文系统地讨论了提高深度神经网络训练效率的方法，重点考虑了内存利用率和 GPU 训练，分类总结了相关策略，并且比较了不同类别之间的方法。

Feb, 2022