GROW: 一种行驻型稀疏 - 密集 GEMM 加速器,用于内存高效图卷积神经网络
Accel-GCN 是一种针对 Graph Convolutional Networks 的 GPU 加速器架构,通过轻量级的节点排序、块级分区策略、以及组合的 warp 策略,优化了 GCN 的计算效率,并在 18 个基准图上表现出比 cuSPARSE、GNNAdvisor 和 graph-BLAST 分别高出 1.17 倍、1.86 倍和 2.94 倍的性能。
Aug, 2023
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法 - 架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019
本研究提出了一种新的框架 NeuralMatrix,可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络,同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。
May, 2023
本文介绍了 GE-SpMM 方法,该方法可以在 GPU 上进行支持高通用性的稀疏矩阵加速操作,并且在真实的图像数据集上实验表明,GE-SpMM 可以在 Nvidia cuSPARSE 和 GraphBLAST 上实现高达 1.41 倍和 1.81 倍的加速,且在 GNN 模型上可以获得高达 3.67 倍的加速效果。
Jul, 2020
我们提出了一种高度并行的算法,用于效放缩大处理器计数的图卷积网络的训练。我们利用图的顶点划分,在处理器之间使用非阻塞点对点通信操作以获得更好的可伸缩性。我们基于超图划分模型提出一种稀疏矩阵划分方案,展示了所提出算法在真实世界的图数据集上比替代解决方案实现了相当快的加速(包括在亿级图上的表现)。
Dec, 2022
图神经网络(GNNs)在处理结构化图形数据和解决节点分类、图分类以及聚类等任务方面是一个强大的工具。本研究通过提供 GNN 计算、输入输出和内存的统一视角,分析了图卷积网络(GCN)和图注意力(GAT)层的计算图,提出了替代的计算策略和自适应运算符重新排序并缓存,以提高 GCN 和 GAT 层的速度,节省内存,并能够有效缓解大规模 GNN 模型训练中的性能瓶颈。
Aug, 2023
通过使用决策树和深度强化学习技术,本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案,进一步对比了传统的启发式方法,结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。
Jun, 2024
本论文提出了一种新的稠密和稀疏矩阵基元的选择和组合方法,使用自适应策略来选择最佳组合,以加速在各种输入图形和 GNN 嵌入大小上的表现,并在与经过良好调整的基线的比较中展示出不同的协同表现优势。
Jun, 2023
针对图神经网络训练过程中稀疏矩阵运算效率低下、采样也更加困难的问题,我们基于资源分配和缓存上一轮采样的解决方案,提出了一种名为随机稀疏计算的方法,能够在几乎不降低精度的情况下取得了专门针对稀疏矩阵运算加速的显著效果。
Oct, 2022
本文提出了 MaxK-GNN,一个高性能的 GPU 训练系统,通过集成算法和系统创新来实现。在 MaxK-GNN 系统的广泛评估中,实验结果显示其接近 Amdahl 法则的理论极限,相对于 DGL 和 GNNAdvisor 的实现,在 Reddit 上实现了 3.22/4.24 倍的速度提升(相对于理论极限的 5.52/7.27 倍),并且达到了与 SOTA GNN 相当的准确性。
Dec, 2023