GRIP: 图神经网络加速器架构

Jul, 2020

GRIP: A Graph Neural Network Accelerator Architecture

Kevin Kiningham, Christopher Re, Philip Levis

TL;DRGRIP 是一个用于低延迟推断的图神经网络加速器体系结构，它将 GNN 推断分为一组固定的边界和顶点中心执行阶段。它使用高性能矩阵乘法引擎以及专用的权重存储器来提高重用性，并通过多个并行预取和约简引擎来缓解存储器访问的不规则性。它支持几个 GNN 优化，包括称为 “顶点平铺” 的新优化，可以提高权重数据的重用。

Abstract

We present GRIP, a graph neural network accelerator architecture designed for low-latency inference. AcceleratingGNNs is challenging becau

graph neural network accelerator architecture low-latency vertex-centric edge-centric

发现论文，激发创造

利用 Versal 体系结构的芯片内异构性加速 GNN 推理

基于 AMD Versal ACAP 架构，利用数据稀疏性加速图神经网络（GNN）推理，通过自定义硬件模块在可编程逻辑（PL）上执行稀疏计算，利用 AI Engine（AIE）高效计算稠密计算部分，并通过动态分配计算任务的运行时内核映射策略在 PL 和 AIE 上分别进行计算，从而在 VCK5000 ACAP 平台上相比于 CPU、GPU、ACAP 和其他自定义 GNN 加速器实现获得更好的性能，平均速度提升分别为 162.42x、17.01x、9.90x 和 27.23x，对于图卷积网络（GCN）推理，相对于仅使用 PL 设计的方案在同一 ACAP 设备上获得了 3.9-96.7 倍的速度提升。

Aug, 2023

在实际的内存处理系统上加速图神经网络

图神经网络（GNNs）是分析图结构数据的新兴机器学习模型。本研究提出了一个高效的 ML 框架 PyGim，通过在实际的 PIM 系统中加速 GNNs，解决了 GNNs 中内存密集型核心所面临的数据移动瓶颈。通过提供混合 GNN 执行，我们证明 PyGim 在比特尔至强 CPU 上的性能平均提升了 3.04 倍，并实现了比 CPU 和 GPU 系统更高的资源利用率。该研究为软件、系统和硬件设计者提供了有价值的建议，并将开源 PyGim 以推动 PIM 系统在 GNNs 中的广泛应用。

Feb, 2024

Accel-GCN：图卷积网络的高性能 GPU 加速器设计

Accel-GCN 是一种针对 Graph Convolutional Networks 的 GPU 加速器架构，通过轻量级的节点排序、块级分区策略、以及组合的 warp 策略，优化了 GCN 的计算效率，并在 18 个基准图上表现出比 cuSPARSE、GNNAdvisor 和 graph-BLAST 分别高出 1.17 倍、1.86 倍和 2.94 倍的性能。

Aug, 2023

图计算加速器的实现

图神经网络在图结构数据上学习提供了一种新颖的机器学习范例，能够捕捉图数据中的复杂关系和依赖性，从而在社交网络分析、分子化学和网络安全等领域具有重要的影响。本论文旨在深入研究 GNN 与底层硬件的交互方式，并设计专用加速器和新型优化方法，以实现更高效和更快速的 GNN 计算。我们基于对 GNN 计算需求的特征化构建了先进的硬件加速器结构，同时扩展了对图神经网络领域中新型模型的探索，旨在提供不仅高性能而且能适应图计算发展的多功能加速器。

Dec, 2023

NeuraChip: 使用基于哈希的解耦空间加速器加速 GNN 计算

NeuraChip 是一种基于 Gustavson 算法的新型 GNN 空间加速器，通过分离稀疏矩阵乘法中的乘法和加法计算，实现了数据依赖性的独立利用，减少了片上内存中数据闲置的问题，并通过动态再分配哈希映射实现了计算资源的负载平衡，从而在性能分析方面取得了显著的改进。

Apr, 2024

通过架构、编译器、分区方法共同设计加速通用图神经网络

本文介绍了一种名为 SwitchBlade 的框架，通过新型分区级操作融合、分区级多线程和细粒度图分区等方法，实现了对图神经网络的高性能和高效能加速，相较于 NVIDIA V100 GPU，SwitchBlade 平均速度提升 1.85 倍，节能 19.03 倍，并且在性能上与最先进的专用加速器相媲美。

Aug, 2023

Rubik: 一种高效图学习的分层架构

该论文提出使用分层图级与节点级计算范式，结合轻量级图重排序方法以及自定义缓存设计与任务级并行映射方法，能够更有效地处理各种图输入数据并提高学习效率。实验中 Rubik 加速器设计能够比 GPU 平台提高 26.3 倍至 1375.2 倍的能效比，适用于不同的数据集和 GCN 模型。

Sep, 2020

GraphACT: 在 CPU-FPGA 异构平台上加速 GCN 训练

通过 CPU-FPGA 异构系统，我们设计了一种新型加速器，通过算法 - 架构协同优化，提升 Graph Convolutional Networks 训练的速度。我们采用子图算法，优化特征传播，并提出基于 systolic array 的设计，实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上，我们的设计比现有多核平台的最新实现快一个数量级，且几乎没有精度损失。

Dec, 2019

EdgeDRNN：针对边缘推理的循环神经网络加速器

本文介绍了一种基于轻量级 GRU RNN 的低延迟 RNN 加速器，名为 EdgeDRNN，利用时间稀疏性和廉价的 DRAM，较其他商用边缘 AI 平台更快和更高效。

Dec, 2020

GraphSnapShot: 快速存储和检索的图机器学习加速

我们最近的研究中，我们开发了一个名为 GraphSnapShot 的框架，该框架已被证明是图学习加速的有用工具。GraphSnapShot 是一种用于图学习的快速缓存、存储、检索和计算的框架。通过快速存储和更新图结构的本地拓扑，它允许我们跟踪图网络结构中的模式，就像对图进行快照一样。在实验中，GraphSnapShot 表现出高效性，与如 dgl 等当前基准相比，它可以实现高达 30% 的训练加速和 73% 的内存减少用于无损图机器学习训练。这种技术特别适用于处理实体之间的复杂关系的大型动态图学习任务，如社交媒体分析和推荐系统。

Jun, 2024