通过 GPU 上的自适应子图级核加速 GNN 训练的 AdaptGear
该研究提出了一种新型的自适应核图神经网络框架(AKGNN),通过设计一种数据驱动的图内核学习机制来解决预定义核对于不同图之间间的泛化问题,同时通过参数化技巧和全局输出函数增强其表达能力,该方法在公认的基准数据集上展示了优异的性能表现。
Dec, 2021
本文提出了 MaxK-GNN,一个高性能的 GPU 训练系统,通过集成算法和系统创新来实现。在 MaxK-GNN 系统的广泛评估中,实验结果显示其接近 Amdahl 法则的理论极限,相对于 DGL 和 GNNAdvisor 的实现,在 Reddit 上实现了 3.22/4.24 倍的速度提升(相对于理论极限的 5.52/7.27 倍),并且达到了与 SOTA GNN 相当的准确性。
Dec, 2023
Accel-GCN 是一种针对 Graph Convolutional Networks 的 GPU 加速器架构,通过轻量级的节点排序、块级分区策略、以及组合的 warp 策略,优化了 GCN 的计算效率,并在 18 个基准图上表现出比 cuSPARSE、GNNAdvisor 和 graph-BLAST 分别高出 1.17 倍、1.86 倍和 2.94 倍的性能。
Aug, 2023
图神经网络在图结构数据上学习提供了一种新颖的机器学习范例,能够捕捉图数据中的复杂关系和依赖性,从而在社交网络分析、分子化学和网络安全等领域具有重要的影响。本论文旨在深入研究 GNN 与底层硬件的交互方式,并设计专用加速器和新型优化方法,以实现更高效和更快速的 GNN 计算。我们基于对 GNN 计算需求的特征化构建了先进的硬件加速器结构,同时扩展了对图神经网络领域中新型模型的探索,旨在提供不仅高性能而且能适应图计算发展的多功能加速器。
Dec, 2023
基于 AMD Versal ACAP 架构,利用数据稀疏性加速图神经网络(GNN)推理,通过自定义硬件模块在可编程逻辑(PL)上执行稀疏计算,利用 AI Engine(AIE)高效计算稠密计算部分,并通过动态分配计算任务的运行时内核映射策略在 PL 和 AIE 上分别进行计算,从而在 VCK5000 ACAP 平台上相比于 CPU、GPU、ACAP 和其他自定义 GNN 加速器实现获得更好的性能,平均速度提升分别为 162.42x、17.01x、9.90x 和 27.23x,对于图卷积网络(GCN)推理,相对于仅使用 PL 设计的方案在同一 ACAP 设备上获得了 3.9-96.7 倍的速度提升。
Aug, 2023
本文介绍了一种名为 SwitchBlade 的框架,通过新型分区级操作融合、分区级多线程和细粒度图分区等方法,实现了对图神经网络的高性能和高效能加速,相较于 NVIDIA V100 GPU,SwitchBlade 平均速度提升 1.85 倍,节能 19.03 倍,并且在性能上与最先进的专用加速器相媲美。
Aug, 2023
GNNAdvisor 是一种自适应、高效的运行时系统,旨在加速 GPU 平台上各种 GNN 工作负载,使用了新的驱动力、二维工作负载管理和 GPU 内存层次优化等技术,实现了自动运行时优化。
Jun, 2020
本文提出了一种新的 GNN 框架,称为 “核图神经网络”,将图核函数集成到 GNN 的消息传递过程中,通过卷积滤波器使用可训练图作为图过滤器与子图相结合来更新节点嵌入,并显示 MPNN 可以视为 KerGNN 的特殊情况,该方法在多个图相关任务中表现出具有竞争力的性能,并提高了模型可解释性与传统 GNN 模型相比。
Jan, 2022
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法 - 架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019