图神经网络中的合作小批处理
这篇论文提出了一种全局节点采样算法,名为 Global Neighborhood Sampling,以满足大规模复杂图的图神经网络训练需求,该算法能使混合 CPU-GPU 训练的高效训练成为可能,并通过实验展现了比传统邻居采样方法更加高效的结果。
Jun, 2021
使用邻域采样的小批量训练方法加速图神经网络的训练和推理过程,可在多 GPU 环境下实现。作者采用性能优化的采样器、共享内存并行化的策略以及批量传输与 GPU 计算流水线的方法对算法进行改进,并在多个基准数据集和 GNN 架构上进行了实验,取得了显著的加速效果。
Oct, 2021
通过最大化节点对输出的影响分数来理论建模批处理构建,在推理方面 IBMB 加速了最多 130 倍,并且通过使用自适应优化和正确的训练计划 IBMB 还可以加速训练,每个时期快 18 倍,并且与先前方法相比,每个运行时收敛速度最高可达 17 倍。
Dec, 2022
本文提出了一种在分布式设置下使用节点采样的图神经网络的小批量训练与推断的方案,通过分析多跳邻域采样时的节点包含概率(VIP),提出基于 VIP 驱动的缓存策略,显著减少通信量,保持本地训练效率和可扩展性,并在常用节点特征上用 GPU 存储。通过 Open Graph Benchmark 数据集进行的实验表明,使用 SALIENT++ 在 8 个单 GPU 机器上训练 3 层 GraphSAGE 模型的速度比使用 SALIENT 在 1 个单 GPU 机器上快 7.1 倍,在 8 个单 GPU 机器上比使用 DistDGL 快 12.7 倍。
May, 2023
BatchGNN 是一个分布式 CPU 系统,可用于高效地在千兆字节级别的图形上训练图神经网络,通过在一个通信中绑定多个子图采样和特征提取以减少冗余特征提取、提供整合图分割和本地 GNN 层实现来提高运行时间,可以缓存聚合输入特征以进一步减少采样开销,相对于 DistDGL,GNN 的平均速度加快了 3 倍,在三个 OGBN 图表上训练的 GNN 模型优于分布式 GPU 系统 P3 和 DistDGLv2 的运行时间,并且可以扩展到千兆字节级别的图形。
Jun, 2023
该论文的主要贡献是在分布式图神经网络训练的采样步骤中提出了减少通信的新方法,其中包括基于矩阵的批量采样方法,用于表示采样为稀疏矩阵乘法(SpGEMM)并一次采样多个小批量。此外,还展示了使用简单的全互连交换合理复制特征数据可以优于当前的分布式图神经网络训练特征提取步骤的方法。
Nov, 2023
本文提出了并行化技术,为图采样 GCN 提供卓越的可扩展性性能,在不妥协准确性的情况下,在非常大的图上实现了优秀的性能。具体地,我们保证了 GCN 的高效训练,并在计算和通信方面节约了数量级的开销,同时,我们的并行图嵌入在可扩展性、效率和准确性方面优于现有的方法。
Oct, 2018
本篇论文探讨了使用小批量(minibatches)方法训练神经网络集合(NNEs)的高效方式,并在 MNIST 数据集上验证其可行性,得到了通常为两个数量级的计算时间提升。同时还强调了使用更长轨迹来表示 NNEs 的优势,既可获得更高的推断准确性,也降低了小批量更新所需的样本数量更新成本。
Jun, 2023
使用小批量训练图神经网络的现有方法提高个体公平性,这对于在推荐系统中应用 GNN 具有重要意义。使用两种 GNN 方法进行评估,证明了利用小批量训练的图神经网络能够实现不仅相当的准确度,而且还能达到更好的公平性,其重要性在于利用局部细节来指导表示学习中的公平性促进过程。
Sep, 2022