Hulk: 用于优化区域分布式计算系统的图神经网络

Feb, 2023

Hulk: 用于优化区域分布式计算系统的图神经网络

Hulk: Graph Neural Networks for Optimizing Regionally Distributed Computing Systems

Zhengqing Yuan, Huiwen Xue, Chao Zhang, Yongming Liu

TL;DR使用修改后的图神经网络，我们提出了一种名为 Hulk 的新颖解决方案，优化在分布式计算系统中训练大规模深度学习模型过程中的数据通信效率，可提高时间效率超过 20％。

Abstract

Large deep learning models have shown great potential for delivering exceptional results in various applications. However, the training process can be incredibly challenging due to the models' vast parameter sizes, often consisting of hundreds of billions of parameters. Common

deep learning distributed training hulk graph neural network data communication efficiency

发现论文，激发创造

针对原子模拟的十亿参数图神经网络训练

本文提出的图并行算法可在多个 GPU 上分布输入图，从而实现训练数十亿个参数的大型 GNN，该方法在大规模开放铂族催化剂的数据集上取得了新的最先进结果。

Mar, 2022

分布式图神经网络训练：综述

这篇综述论文分析了分布式图神经网络训练的三个挑战以及通过四类优化技术解决这些挑战的方法：GNN 数据分区、GNN 批量生成、GNN 执行模式和 GNN 通信协议。最后，本文总结了现有的多 GPU、GPU 集群和 CPU 集群的分布式 GNN 系统，并就可伸缩 GNNs 的未来方向进行了讨论。

Nov, 2022

分布式训练的通信优化：架构、进展和机遇

大规模深度神经网络的分布式训练通信优化的研究，提出了一个五层范式，强调协同设计的机会。

Mar, 2024

Holmes: 面向集群间具有异构 NIC 环境的分布式训练

Holmes 是一个专门为 LLMs 设计的训练框架，通过巧妙构建数据和模型并行策略，在异构 NIC 环境下实现了可扩展性，并在大多数情况下达到接近 RDMA 网络性能的学习效率，同时与其他主流 LLM 框架无缝集成。

Dec, 2023

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

基于多 GPU 平台的模型并行的高效稳健的 DNN 训练

该论文提出了一种基于 SpecTrain 的管道模型并行执行方法，可以在保持训练准确性的前提下，实现高 GPU 利用率，相比数据并行法可提高 8.91 倍的速度。

Sep, 2018

规模安全分布式训练

本文提出了一种新颖的协议，用于安全的（拜占庭容错）分散式训练，强调通信效率。

Jun, 2021

开放协作中的分布式深度学习

本文研究了 Deep Learning 中在协作训练上的瓶颈，提出了一种适用于协作训练的新算法框架，并在实际条件下展示了该方法对 SwAV 和 ALBERT 的预训练效果，结果表明该方法的性能与传统设置相当，成本仅为传统设置的一小部分。最后，提供了一个由 40 名参与者组成的成功的协作语言模型预训练的详细报告。

Jun, 2021

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023