GNNPipe: 使用流水线模型并行加速分布式全图GNN训练
本文介绍了一种支持高效内存管道并行处理的系统——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上,并考虑加速器的内存容量和互连拓扑等硬件限制,可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍,并保持模型精度相似。
Jun, 2020
使用邻域采样的小批量训练方法加速图神经网络的训练和推理过程,可在多GPU环境下实现。作者采用性能优化的采样器、共享内存并行化的策略以及批量传输与GPU计算流水线的方法对算法进行改进,并在多个基准数据集和GNN架构上进行了实验,取得了显著的加速效果。
Oct, 2021
PipeGCN是一种隐藏分布式图卷积网络(GCN)培训中节点特征和特征梯度通信开销的简单而有效的方案,在训练吞吐量(1.7倍〜28.5倍)大幅提高的同时实现与现有全图培训方法相同的精度。
Mar, 2022
这篇综述论文分析了分布式图神经网络训练的三个挑战以及通过四类优化技术解决这些挑战的方法:GNN 数据分区、GNN 批量生成、GNN 执行模式和 GNN 通信协议。最后,本文总结了现有的多GPU、GPU集群和CPU集群的分布式GNN系统,并就可伸缩GNNs的未来方向进行了讨论。
Nov, 2022
本文提出了一种高效的分布式图神经网络(GNN)训练框架Sylvie,该框架采用一位量化技术和有界延迟的调整器来缩减通信开销,同时保持模型质量,在各种模型和数据集上进行了广泛实验验证,结果表明,该框架能够将训练吞吐量显著提高28.1倍。
Mar, 2023
本文研究了分布式完全图训练的图神经网络(GNNs),提出了一种快速训练系统AdaQP,并使用随机量化和通信计算并行化等技术来降低通信成本,实现了训练吞吐量的显著提升和误差微小的准确性改进。
Jun, 2023
BatchGNN是一个分布式CPU系统,可用于高效地在千兆字节级别的图形上训练图神经网络,通过在一个通信中绑定多个子图采样和特征提取以减少冗余特征提取、提供整合图分割和本地GNN层实现来提高运行时间,可以缓存聚合输入特征以进一步减少采样开销,相对于DistDGL,GNN的平均速度加快了3倍,在三个OGBN图表上训练的GNN模型优于分布式GPU系统P3和DistDGLv2的运行时间,并且可以扩展到千兆字节级别的图形。
Jun, 2023
CoFree-GNN是一个新颖的分布式图神经网络训练框架,通过实现无通信训练显著加速训练过程。该框架利用顶点切分分区,通过在边上切分而不是切分分区之间的边,将节点信息复制以保留图结构,并通过重新赋权机制处理由复制节点引起的扭曲图分布。同时,通过引入修正的DropEdge技术进一步加快训练速度。在实际网络上进行的大量实验表明,CoFree-GNN相比现有最先进的GNN训练方法,训练过程速度最多提高10倍。
Aug, 2023
CATGNN是一个成本效益高且可扩展的分布式GNN训练系统,专注于在有限计算资源下扩展GNN训练到十亿规模或更大规模的图,并提出了一种名为SPRING的新型流式分区算法来进行分布式GNN训练。在16个开放数据集上验证了CATGNN与SPRING的正确性和有效性,尤其是证明了CATGNN能够处理最大的公开可用数据集,并在平均复制因子上显著优于最先进的分区算法50%。
Apr, 2024
深度神经网络的管道并行化方法(GPP)以及分布式系统GraphPipe通过优化微批量进度和并行训练实现了对现有管道并行系统如PipeDream和Piper的提速和搜索时间的降低。
Jun, 2024