通过架构、编译器、分区方法共同设计加速通用图神经网络
图神经网络在图结构数据上学习提供了一种新颖的机器学习范例,能够捕捉图数据中的复杂关系和依赖性,从而在社交网络分析、分子化学和网络安全等领域具有重要的影响。本论文旨在深入研究 GNN 与底层硬件的交互方式,并设计专用加速器和新型优化方法,以实现更高效和更快速的 GNN 计算。我们基于对 GNN 计算需求的特征化构建了先进的硬件加速器结构,同时扩展了对图神经网络领域中新型模型的探索,旨在提供不仅高性能而且能适应图计算发展的多功能加速器。
Dec, 2023
Accel-GCN 是一种针对 Graph Convolutional Networks 的 GPU 加速器架构,通过轻量级的节点排序、块级分区策略、以及组合的 warp 策略,优化了 GCN 的计算效率,并在 18 个基准图上表现出比 cuSPARSE、GNNAdvisor 和 graph-BLAST 分别高出 1.17 倍、1.86 倍和 2.94 倍的性能。
Aug, 2023
基于 AMD Versal ACAP 架构,利用数据稀疏性加速图神经网络(GNN)推理,通过自定义硬件模块在可编程逻辑(PL)上执行稀疏计算,利用 AI Engine(AIE)高效计算稠密计算部分,并通过动态分配计算任务的运行时内核映射策略在 PL 和 AIE 上分别进行计算,从而在 VCK5000 ACAP 平台上相比于 CPU、GPU、ACAP 和其他自定义 GNN 加速器实现获得更好的性能,平均速度提升分别为 162.42x、17.01x、9.90x 和 27.23x,对于图卷积网络(GCN)推理,相对于仅使用 PL 设计的方案在同一 ACAP 设备上获得了 3.9-96.7 倍的速度提升。
Aug, 2023
本文研究了图分区对分布式图神经网络训练的有效性,发现图分区是一个关键的预处理步骤,能够大大减少训练时间和内存占用,同时也证明了分区所需的时间可以通过减少图神经网络训练时间加以弥补。
Aug, 2023
我们提出了使用图神经网络解决 Markov 链描述的动力学网络的图划分问题,通过使用编码器 - 解码器架构和简单的 GraphSAGE-based GNNs 能够在这个背景下胜过更大更有表达力的基于注意力的模型。
Dec, 2023
本文介绍了一种在大规模动态图上训练分布式算法的方法,采用图差分策略和数据分布技术极大地降低了传输和运行时间,并在使用 128 个 GPU 的系统上取得了高达 30 倍的加速。
Sep, 2021
本文提出 AdaptGear 系统,旨在通过在子图层面上利用与密度特征相匹配的核心来优化 GNN 的性能,同时提出一种方法动态选择给定输入图形的最佳核心集,评估表明 AdaptGear 可以在各种数据集上实现显着的性能改进,最高可达 6.49 倍(平均 1.87 倍)
May, 2023
本文介绍了 GNNBuilder,这是第一个自动化的、通用的、端到端的 GNN 加速器生成框架,支持各种由用户任意定义的 GNN 模型,并拥有精确的性能模型和设计空间探索功能。实验结果显示,GNNBuilder 生成的加速器可以比 CPU 快 6.33 倍,比 GPU 快 6.87 倍。
Mar, 2023
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法 - 架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019