GraNNDis: 面向大规模集群的高效统一分布式训练框架用于深度图神经网络

Nov, 2023

GraNNDis: 面向大规模集群的高效统一分布式训练框架用于深度图神经网络

GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs on Large Clusters

Jaeyong Song, Hongsun Jang, Jaewon Jung, Youngsok Kim, Jinho Lee

TL;DRGraNNDis是一个高效的分布式GNN训练框架，通过共享预加载、扩展感知采样和合作批处理三种技术，解决了大图和深层训练中的通信和内存问题，实现了超越现有分布式GNN训练框架的速度提升。

Abstract

graph neural networks (GNNs) are one of the most rapidly growing fields within deep learning. According to the growth in the dataset and the model size used for GNNs, an important problem is that it becomes nearly impossible to keep the whole network on GPU memory. Among numerous attem

发现论文，激发创造

分布式图神经网络训练：综述

这篇综述论文分析了分布式图神经网络训练的三个挑战以及通过四类优化技术解决这些挑战的方法：GNN 数据分区、GNN 批量生成、GNN 执行模式和 GNN 通信协议。最后，本文总结了现有的多GPU、GPU集群和CPU集群的分布式GNN系统，并就可伸缩GNNs的未来方向进行了讨论。

Nov, 2022

使用异步一比特通信提升分布式全图 GNN 训练

本文提出了一种高效的分布式图神经网络（GNN）训练框架Sylvie，该框架采用一位量化技术和有界延迟的调整器来缩减通信开销，同时保持模型质量，在各种模型和数据集上进行了广泛实验验证，结果表明，该框架能够将训练吞吐量显著提高28.1倍。

Mar, 2023

BatchGNN：在非常大的图上高效的基于CPU的分布式GNN训练

BatchGNN是一个分布式CPU系统，可用于高效地在千兆字节级别的图形上训练图神经网络，通过在一个通信中绑定多个子图采样和特征提取以减少冗余特征提取、提供整合图分割和本地GNN层实现来提高运行时间，可以缓存聚合输入特征以进一步减少采样开销，相对于DistDGL，GNN的平均速度加快了3倍，在三个OGBN图表上训练的GNN模型优于分布式GPU系统P3和DistDGLv2的运行时间，并且可以扩展到千兆字节级别的图形。

Jun, 2023

无通信的顶点切割分布式GNN训练

CoFree-GNN是一个新颖的分布式图神经网络训练框架，通过实现无通信训练显著加速训练过程。该框架利用顶点切分分区，通过在边上切分而不是切分分区之间的边，将节点信息复制以保留图结构，并通过重新赋权机制处理由复制节点引起的扭曲图分布。同时，通过引入修正的DropEdge技术进一步加快训练速度。在实际网络上进行的大量实验表明，CoFree-GNN相比现有最先进的GNN训练方法，训练过程速度最多提高10倍。

Aug, 2023

GNNPipe: 使用流水线模型并行加速分布式全图GNN训练

采用模型并行而非图并行的分布式全局图神经网络训练方法GNNPipe，结合基于分块的流水线训练方法以及混合并行性，以减少通信开销并加快训练时间，同时保持相当的模型准确性和收敛速度。

Aug, 2023

分布式图神经网络训练的分区策略实验比较

本文研究了图分区对分布式图神经网络训练的有效性，发现图分区是一个关键的预处理步骤，能够大大减少训练时间和内存占用，同时也证明了分区所需的时间可以通过减少图神经网络训练时间加以弥补。

Aug, 2023

基于分布式矩阵采样的图神经网络训练

该论文的主要贡献是在分布式图神经网络训练的采样步骤中提出了减少通信的新方法，其中包括基于矩阵的批量采样方法，用于表示采样为稀疏矩阵乘法（SpGEMM）并一次采样多个小批量。此外，还展示了使用简单的全互连交换合理复制特征数据可以优于当前的分布式图神经网络训练特征提取步骤的方法。

Nov, 2023

CATGNN: 图神经网络的高效可扩展分布式训练

CATGNN是一个成本效益高且可扩展的分布式GNN训练系统，专注于在有限计算资源下扩展GNN训练到十亿规模或更大规模的图，并提出了一种名为SPRING的新型流式分区算法来进行分布式GNN训练。在16个开放数据集上验证了CATGNN与SPRING的正确性和有效性，尤其是证明了CATGNN能够处理最大的公开可用数据集，并在平均复制因子上显著优于最先进的分区算法50%。

Apr, 2024

变通信速率下的大规模图神经网络分布式训练

在分布式图神经网络训练中引入了一种变化的压缩方案，用于减少通信量而不降低学习模型的准确性，并通过理论分析和实证结果证明了其性能优于完全通信情况下的压缩比。

Jun, 2024

MassiveGNN：通过预取提升大规模连接分布式图的高效训练

本研究解决了大规模连接图在图神经网络（GNN）训练中面临的计算成本和性能挑战。通过在顶尖的Amazon DistDGL分布式GNN框架上开发参数化的连续预取和驱逐机制，本论文提出了改进采样和通信开销的实用折衷方案，从而在国家能源研究科学计算中心的Perlmutter超级计算机上实现了15-40%的训练性能提升。

Oct, 2024