分布式图神经网络训练:综述
本文提出了一种分布式算法框架来训练图卷积网络,利用了输入数据的有意义的关系结构,并在不同代理之间分割数据图表达的优化通信拓扑结构,提出了一种分布式梯度下降算法来解决GCN训练问题,并建立了一套评价通信拓扑的优化准则。
Jul, 2020
本研究提出了一种基于图神经网络的、名称为$ ext{{Learn Locally, Correct Globally}}$ (LLCG) 的、分布式算法,通过本地训练减少通信和内存开销,并利用全局服务器修正减少性能退化问题。实验结果显示LLCG可以显著提高效率且不损害性能。
Nov, 2021
BatchGNN是一个分布式CPU系统,可用于高效地在千兆字节级别的图形上训练图神经网络,通过在一个通信中绑定多个子图采样和特征提取以减少冗余特征提取、提供整合图分割和本地GNN层实现来提高运行时间,可以缓存聚合输入特征以进一步减少采样开销,相对于DistDGL,GNN的平均速度加快了3倍,在三个OGBN图表上训练的GNN模型优于分布式GPU系统P3和DistDGLv2的运行时间,并且可以扩展到千兆字节级别的图形。
Jun, 2023
CoFree-GNN是一个新颖的分布式图神经网络训练框架,通过实现无通信训练显著加速训练过程。该框架利用顶点切分分区,通过在边上切分而不是切分分区之间的边,将节点信息复制以保留图结构,并通过重新赋权机制处理由复制节点引起的扭曲图分布。同时,通过引入修正的DropEdge技术进一步加快训练速度。在实际网络上进行的大量实验表明,CoFree-GNN相比现有最先进的GNN训练方法,训练过程速度最多提高10倍。
Aug, 2023
本文研究了图分区对分布式图神经网络训练的有效性,发现图分区是一个关键的预处理步骤,能够大大减少训练时间和内存占用,同时也证明了分区所需的时间可以通过减少图神经网络训练时间加以弥补。
Aug, 2023
GraNNDis是一个高效的分布式GNN训练框架,通过共享预加载、扩展感知采样和合作批处理三种技术,解决了大图和深层训练中的通信和内存问题,实现了超越现有分布式GNN训练框架的速度提升。
Nov, 2023
CATGNN是一个成本效益高且可扩展的分布式GNN训练系统,专注于在有限计算资源下扩展GNN训练到十亿规模或更大规模的图,并提出了一种名为SPRING的新型流式分区算法来进行分布式GNN训练。在16个开放数据集上验证了CATGNN与SPRING的正确性和有效性,尤其是证明了CATGNN能够处理最大的公开可用数据集,并在平均复制因子上显著优于最先进的分区算法50%。
Apr, 2024
在分布式图神经网络训练中引入了一种变化的压缩方案,用于减少通信量而不降低学习模型的准确性,并通过理论分析和实证结果证明了其性能优于完全通信情况下的压缩比。
Jun, 2024
本研究解决了大规模连接图在图神经网络(GNN)训练中面临的计算成本和性能挑战。通过在顶尖的Amazon DistDGL分布式GNN框架上开发参数化的连续预取和驱逐机制,本论文提出了改进采样和通信开销的实用折衷方案,从而在国家能源研究科学计算中心的Perlmutter超级计算机上实现了15-40%的训练性能提升。
Oct, 2024