GraphACT: 在 CPU-FPGA 异构平台上加速 GCN 训练
我们提出了一种高度并行的算法,用于效放缩大处理器计数的图卷积网络的训练。我们利用图的顶点划分,在处理器之间使用非阻塞点对点通信操作以获得更好的可伸缩性。我们基于超图划分模型提出一种稀疏矩阵划分方案,展示了所提出算法在真实世界的图数据集上比替代解决方案实现了相当快的加速(包括在亿级图上的表现)。
Dec, 2022
Accel-GCN 是一种针对 Graph Convolutional Networks 的 GPU 加速器架构,通过轻量级的节点排序、块级分区策略、以及组合的 warp 策略,优化了 GCN 的计算效率,并在 18 个基准图上表现出比 cuSPARSE、GNNAdvisor 和 graph-BLAST 分别高出 1.17 倍、1.86 倍和 2.94 倍的性能。
Aug, 2023
本文提出了并行化技术,为图采样 GCN 提供卓越的可扩展性性能,在不妥协准确性的情况下,在非常大的图上实现了优秀的性能。具体地,我们保证了 GCN 的高效训练,并在计算和通信方面节约了数量级的开销,同时,我们的并行图嵌入在可扩展性、效率和准确性方面优于现有的方法。
Oct, 2018
本文提出一种基于混合架构的 GCN 加速器 HyGCN,该加速器在处理 GCNs 时具有细粒度的并行性,利用两个处理引擎来缓解 Aggregation 阶段的不规则性和 Combination 阶段的规则性,并通过间相位融合和基于优先级的内存访问协调来优化整个系统,相较于 Intel Xeon CPU 和 NVIDIA V100 GPU 上的现有软件框架,该加速器平均获得了 1509 倍的加速比,同时降低了 2500 倍的能耗和 6.5 倍的加速比以及 10 倍的能耗降低。
Jan, 2020
PipeGCN 是一种隐藏分布式图卷积网络(GCN)培训中节点特征和特征梯度通信开销的简单而有效的方案,在训练吞吐量(1.7 倍〜28.5 倍)大幅提高的同时实现与现有全图培训方法相同的精度。
Mar, 2022
基于 AMD Versal ACAP 架构,利用数据稀疏性加速图神经网络(GNN)推理,通过自定义硬件模块在可编程逻辑(PL)上执行稀疏计算,利用 AI Engine(AIE)高效计算稠密计算部分,并通过动态分配计算任务的运行时内核映射策略在 PL 和 AIE 上分别进行计算,从而在 VCK5000 ACAP 平台上相比于 CPU、GPU、ACAP 和其他自定义 GNN 加速器实现获得更好的性能,平均速度提升分别为 162.42x、17.01x、9.90x 和 27.23x,对于图卷积网络(GCN)推理,相对于仅使用 PL 设计的方案在同一 ACAP 设备上获得了 3.9-96.7 倍的速度提升。
Aug, 2023
本文提出了一种新的硬件加速器 I-GCN,采用在线图重构算法 Islandization,通过处理岛屿而不是单个节点,从而显著提高了数据局部性和减少了不必要的计算。I-GCN 可以减少 38% 的聚合操作,性能速度普遍快于 CPU、GPU 和先前的 GCN 加速器。
Mar, 2022
本研究提出了一种高效的图形卷积网络(GCN)训练框架 L-GCN,该框架通过在训练期间解耦功能聚合和功能转换,大大降低了时间和内存复杂度,并提出了 L²-GCN,用于每个层学习控制器,可以自动调整每个层的训练时期。实验表明,在不依赖于数据集大小的一致内存使用情况下,L-GCN 比现有技术快至少一个数量级,同时保持可比的预测性能。
Mar, 2020
通过消除 GCN 中的不必要的非线性和权重矩阵,我们提出了一种线性模型,它对应于一个固定的低通滤波器,然后是一个线性分类器。 在许多下游应用中,我们的实验评估表明这种简化并不会对精度产生负面影响。 此外,由于我们的模型简化减少了计算量,因此我们的模型在更大的数据集上具有可扩展性,并且具有更快的推理速度。
Feb, 2019
本文通过对 GCNs 进行特征化并在 NVIDIA V100 GPU 上探索 GCN 模型,提出了一些有用的指南,以实现 GCNs 在 GPU 上高效执行的软件优化和硬件优化。
Jan, 2020