FlashGraph: 在一组通用 SSD 上处理数十亿节点图
本文针对大规模图神经网络 GNN 训练所需的巨大存储容量和内存限制的问题,提出了一种基于存储器的处理(ISP)架构的解决方案 SmartSAGE,使 GNN 训练系统具有高容量存储和高性能。
May, 2022
本研究使用理论高效的并行图算法和优化技术,结合大规模图分析,能够使单机具有 1TB 内存的计算机在几分钟内处理超过 35 亿个节点和 1280 亿条边的实际网络图像。同时,研究组将开发的这些算法公开提供给社区,以用作图算法效果评价指标的基准。
May, 2018
GNNDrive 通过综合的缓冲区管理和异步特征提取策略来最小化内存占用,避免内存和 I/O 的竞争,并充分利用软件和硬件资源。实验证明 GNNDrive 在 Papers100M 数据集上训练 GraphSAGE 模型时,比 SoTA PyG+、Ginex 和 MariusGNN 分别快 16.9 倍、2.6 倍和 2.7 倍。
Jun, 2024
研究使用离线采样的 DiskGNN 系统,在训练大规模图神经网络时达到高的 I/O 效率和快速训练,同时保持模型的准确性。与其他现有系统相比,DiskGNN 能够将性能提高 8 倍以上,并且具有相同的模型精确度。
May, 2024
我们最近的研究中,我们开发了一个名为 GraphSnapShot 的框架,该框架已被证明是图学习加速的有用工具。GraphSnapShot 是一种用于图学习的快速缓存、存储、检索和计算的框架。通过快速存储和更新图结构的本地拓扑,它允许我们跟踪图网络结构中的模式,就像对图进行快照一样。在实验中,GraphSnapShot 表现出高效性,与如 dgl 等当前基准相比,它可以实现高达 30% 的训练加速和 73% 的内存减少用于无损图机器学习训练。这种技术特别适用于处理实体之间的复杂关系的大型动态图学习任务,如社交媒体分析和推荐系统。
Jun, 2024
本研究旨在探讨如何在当今大规模图形上开展可扩展性的图形处理,提出了一种新的图形坐标系统的设计空间,即通过将图嵌入到坐标空间的方式精确地近似节点距离,从而实现常数时间内的距离查询和最短路径查询,在 43 百万个节点的图中能提供更准确的结果,且可以很容易地扩展到定位节点对之间的最短路径,解决了大规模图形分析的难题。
Jul, 2011
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法 - 架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019
文中作者提出了 GPU Initiated Direct Storage Access (GIDS) 数据加载器来解决图嵌入和采样问题,以实现大规模图的 GPU 优先训练及优化,该方法将整个 DGL GNN 训练加速了最高可达 392 倍。
Jun, 2023
我们提出了一种高度并行的算法,用于效放缩大处理器计数的图卷积网络的训练。我们利用图的顶点划分,在处理器之间使用非阻塞点对点通信操作以获得更好的可伸缩性。我们基于超图划分模型提出一种稀疏矩阵划分方案,展示了所提出算法在真实世界的图数据集上比替代解决方案实现了相当快的加速(包括在亿级图上的表现)。
Dec, 2022
本研究通过优化稀疏矩阵算法,使用面向固定大小数据的平台扩展了稀疏图神经网络模型,使用 512 核 TPUv2 Pod 仅用 13 分钟训练,而原始训练需要近一天。
Jun, 2019