Oct, 2024
MassiveGNN:通过预取提升大规模连接分布式图的高效训练
MassiveGNN: Efficient Training via Prefetching for Massively Connected
Distributed Graphs
TL;DR本研究解决了大规模连接图在图神经网络(GNN)训练中面临的计算成本和性能挑战。通过在顶尖的Amazon DistDGL分布式GNN框架上开发参数化的连续预取和驱逐机制,本论文提出了改进采样和通信开销的实用折衷方案,从而在国家能源研究科学计算中心的Perlmutter超级计算机上实现了15-40%的训练性能提升。