数据驱动节点采样强化 GraphSAGE
使用邻域采样的小批量训练方法加速图神经网络的训练和推理过程,可在多 GPU 环境下实现。作者采用性能优化的采样器、共享内存并行化的策略以及批量传输与 GPU 计算流水线的方法对算法进行改进,并在多个基准数据集和 GNN 架构上进行了实验,取得了显著的加速效果。
Oct, 2021
我们提出了一种用于训练大型输入图的图神经网络(GNNs)的理论框架,通过在小型固定大小的采样子图上进行训练。在渐进理论的基础上,我们证明了在渐进意义下,通过在大型输入图的小样本上训练基于采样的 GNNs 所学习到的参数在 ε- 邻域内与在整个图上训练相同结构的结果相比具有可接受的误差。我们从 ε 的角度导出了关于采样数、图的大小和训练步骤所需的界限函数。我们的结果给出了对于在训练 GNNs 中使用采样的新颖理论理解。同时我们的结果还表明,通过在输入图的小样本上训练 GNNs,从而可以更高效地确定和选择最佳模型、超参数和采样算法。我们在大型的引文图上进行了节点分类任务的实证研究,观察到在局部子图上训练的采样 GNNs 相较于在输入图上训练的 GNNs 达到了可比较的性能,而局部子图的大小仅为原图的 1/12。
Oct, 2023
图神经网络通过以各种方式聚合邻域信息来学习图中节点的表示,然而随着网络深度的增加,其感受野会呈指数增长,导致内存开销过大。为了解决图神经网络的内存问题,图采样通过在图中对节点进行采样,从而使得图神经网络能够适应更大规模的图。本文引入了 GRAPES 这一自适应图采样方法,通过学习识别用于训练图神经网络分类器的有影响力的节点集合,并利用 GFlowNet 学习节点采样概率。我们在多个小规模和大规模图数据集上评估了 GRAPES 方法,并展示了其在准确性和可扩展性方面的有效性。与现有的采样方法相比,GRAPES 方法即使在样本规模较小的情况下仍能保持高准确性,因此可以适用于非常大的图。我们的代码公开在此 https URL。
Oct, 2023
该研究提出了一种通用的归纳框架 GraphSAGE,可以利用节点特征信息生成节点嵌入,不需要进行所有节点的嵌入训练,同时利用邻域采样和聚合特征来学习生成节点嵌入的函数。该算法在三项归纳节点分类基准测试中表现出色,具有很好的泛化性能。
Jun, 2017
该论文介绍了一个名为 NextDoor 的系统,该系统使用称为 transit-parallelism 的新方法,在 GPU 上高效执行图形采样,并比现有系统运行得更快,该系统提供给终端用户撰写各种图形采样算法的高级抽象。
Sep, 2020
在处理大型工业数据集时,考虑到 GNN 层之间的信息共享会导致大量的消息传递计算,为了解决高方差的问题,可以将 GNN 邻域抽样看作是一个多臂赌博机问题,并设计了一个新的奖励函数,可将一定程度的偏差引入样本采样中,以减少方差并避免不稳定的、可能无界的支出。
Mar, 2021
GraphSAINT 是一种基于图采样的归纳学习方法,通过采样训练图形而不是节点或边来构建小批量,以提高训练效率和准确性;在五个大图上表现出优越的性能,实现了 PPI(0.995)和 Reddit(0.970)的新的最先进的 F1 分数。
Jul, 2019
本文提出一种名为 HE-SGNN 的 GNN 模型,它使用两级嵌套的估计器来减少采样方差,并且使用不同的估计器来应对不同的采样方法。实验结果表明,该模型的效果和效率都很高。
Nov, 2022
使用小批量训练图神经网络的现有方法提高个体公平性,这对于在推荐系统中应用 GNN 具有重要意义。使用两种 GNN 方法进行评估,证明了利用小批量训练的图神经网络能够实现不仅相当的准确度,而且还能达到更好的公平性,其重要性在于利用局部细节来指导表示学习中的公平性促进过程。
Sep, 2022