FlashGraph: 在一组通用 SSD 上处理数十亿节点图

Aug, 2014

FlashGraph: 在一组通用 SSD 上处理数十亿节点图

FlashGraph: Processing Billion-Node Graphs on an Array of Commodity SSDs

Da Zheng, Disa Mhembere, Randal Burns, Joshua Vogelstein, Carey E. Priebe...

TL;DR通过在用户空间 SSD 文件系统上实现图处理引擎，使用闪存硬盘并利用多核服务器的处理能力，FlashGraph 在半外部存储器中执行许多算法并表现出众，可表达各种图形算法及其优化。

Abstract

graph analysis performs many random reads and writes, thus, these workloads are typically performed in memory. Traditionally, analyzing large graphs requires a cluster of machines so the aggregate memory exceeds the graph size. We demonstrate that a →

graph analysis multicore server flashgraph ssd vertex-centric programming

发现论文，激发创造

SmartSAGE: 使用存储处理架构训练大规模图神经网络

本文针对大规模图神经网络 GNN 训练所需的巨大存储容量和内存限制的问题，提出了一种基于存储器的处理（ISP）架构的解决方案 SmartSAGE，使 GNN 训练系统具有高容量存储和高性能。

May, 2022

理论上高效的并行图算法可以快速且可扩展

本研究使用理论高效的并行图算法和优化技术，结合大规模图分析，能够使单机具有 1TB 内存的计算机在几分钟内处理超过 35 亿个节点和 1280 亿条边的实际网络图像。同时，研究组将开发的这些算法公开提供给社区，以用作图算法效果评价指标的基准。

May, 2018

降低基于磁盘的 GNN 训练中的内存争用和 I/O 拥塞

GNNDrive 通过综合的缓冲区管理和异步特征提取策略来最小化内存占用，避免内存和 I/O 的竞争，并充分利用软件和硬件资源。实验证明 GNNDrive 在 Papers100M 数据集上训练 GraphSAGE 模型时，比 SoTA PyG+、Ginex 和 MariusGNN 分别快 16.9 倍、2.6 倍和 2.7 倍。

Jun, 2024

DiskGNN：为离核 GNN 训练提供 I/O 效率和模型准确性的桥接

研究使用离线采样的 DiskGNN 系统，在训练大规模图神经网络时达到高的 I/O 效率和快速训练，同时保持模型的准确性。与其他现有系统相比，DiskGNN 能够将性能提高 8 倍以上，并且具有相同的模型精确度。

May, 2024

GraphSnapShot: 快速存储和检索的图机器学习加速

我们最近的研究中，我们开发了一个名为 GraphSnapShot 的框架，该框架已被证明是图学习加速的有用工具。GraphSnapShot 是一种用于图学习的快速缓存、存储、检索和计算的框架。通过快速存储和更新图结构的本地拓扑，它允许我们跟踪图网络结构中的模式，就像对图进行快照一样。在实验中，GraphSnapShot 表现出高效性，与如 dgl 等当前基准相比，它可以实现高达 30% 的训练加速和 73% 的内存减少用于无损图机器学习训练。这种技术特别适用于处理实体之间的复杂关系的大型动态图学习任务，如社交媒体分析和推荐系统。

Jun, 2024

海量社交图快速可扩展分析

本研究旨在探讨如何在当今大规模图形上开展可扩展性的图形处理，提出了一种新的图形坐标系统的设计空间，即通过将图嵌入到坐标空间的方式精确地近似节点距离，从而实现常数时间内的距离查询和最短路径查询，在 43 百万个节点的图中能提供更准确的结果，且可以很容易地扩展到定位节点对之间的最短路径，解决了大规模图形分析的难题。

Jul, 2011

GraphACT: 在 CPU-FPGA 异构平台上加速 GCN 训练

通过 CPU-FPGA 异构系统，我们设计了一种新型加速器，通过算法 - 架构协同优化，提升 Graph Convolutional Networks 训练的速度。我们采用子图算法，优化特征传播，并提出基于 systolic array 的设计，实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上，我们的设计比现有多核平台的最新实现快一个数量级，且几乎没有精度损失。

Dec, 2019

利用 GPU 发起直接存储访问加速 GNN 框架中的采样和聚合操作

文中作者提出了 GPU Initiated Direct Storage Access (GIDS) 数据加载器来解决图嵌入和采样问题，以实现大规模图的 GPU 优先训练及优化，该方法将整个 DGL GNN 训练加速了最高可达 392 倍。

Jun, 2023

分布式内存系统上的可扩展图卷积网络训练

我们提出了一种高度并行的算法，用于效放缩大处理器计数的图卷积网络的训练。我们利用图的顶点划分，在处理器之间使用非阻塞点对点通信操作以获得更好的可伸缩性。我们基于超图划分模型提出一种稀疏矩阵划分方案，展示了所提出算法在真实世界的图数据集上比替代解决方案实现了相当快的加速（包括在亿级图上的表现）。

Dec, 2022

在密集硬件上快速训练稀疏图神经网络

本研究通过优化稀疏矩阵算法，使用面向固定大小数据的平台扩展了稀疏图神经网络模型，使用 512 核 TPUv2 Pod 仅用 13 分钟训练，而原始训练需要近一天。

Jun, 2019