通过架构、编译器、分区方法共同设计加速通用图神经网络
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法-架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019
本文介绍了一种在大规模动态图上训练分布式算法的方法,采用图差分策略和数据分布技术极大地降低了传输和运行时间,并在使用 128 个 GPU 的系统上取得了高达 30 倍的加速。
Sep, 2021
通过在PyTorch Geometric软件框架中实现科学计算所需的低级操作并在NVIDIA A100 GPU上进行基准测试,我们发现在专用硬件平台上具有关键作用的操作时限制内存效率的瓶颈而不仅仅是数据稀疏性,希望这些结果能成为此类操作的基准,并有助于未来的软件和硬件优化,从而实现可扩展的GNN性能的整体增强。
Jul, 2022
本文介绍了GNNBuilder,这是第一个自动化的、通用的、端到端的GNN加速器生成框架,支持各种由用户任意定义的GNN模型,并拥有精确的性能模型和设计空间探索功能。实验结果显示,GNNBuilder生成的加速器可以比CPU快6.33倍,比GPU快6.87倍。
Mar, 2023
CoFree-GNN是一个新颖的分布式图神经网络训练框架,通过实现无通信训练显著加速训练过程。该框架利用顶点切分分区,通过在边上切分而不是切分分区之间的边,将节点信息复制以保留图结构,并通过重新赋权机制处理由复制节点引起的扭曲图分布。同时,通过引入修正的DropEdge技术进一步加快训练速度。在实际网络上进行的大量实验表明,CoFree-GNN相比现有最先进的GNN训练方法,训练过程速度最多提高10倍。
Aug, 2023
Accel-GCN是一种针对Graph Convolutional Networks的GPU加速器架构,通过轻量级的节点排序、块级分区策略、以及组合的warp策略,优化了GCN的计算效率,并在18个基准图上表现出比cuSPARSE、GNNAdvisor和graph-BLAST分别高出1.17倍、1.86倍和2.94倍的性能。
Aug, 2023
本文研究了图分区对分布式图神经网络训练的有效性,发现图分区是一个关键的预处理步骤,能够大大减少训练时间和内存占用,同时也证明了分区所需的时间可以通过减少图神经网络训练时间加以弥补。
Aug, 2023
本文提出了MaxK-GNN,一个高性能的GPU训练系统,通过集成算法和系统创新来实现。在MaxK-GNN系统的广泛评估中,实验结果显示其接近Amdahl法则的理论极限,相对于DGL和GNNAdvisor的实现,在Reddit上实现了3.22/4.24倍的速度提升(相对于理论极限的5.52/7.27倍),并且达到了与SOTA GNN相当的准确性。
Dec, 2023
图神经网络在图结构数据上学习提供了一种新颖的机器学习范例,能够捕捉图数据中的复杂关系和依赖性,从而在社交网络分析、分子化学和网络安全等领域具有重要的影响。本论文旨在深入研究GNN与底层硬件的交互方式,并设计专用加速器和新型优化方法,以实现更高效和更快速的GNN计算。我们基于对GNN计算需求的特征化构建了先进的硬件加速器结构,同时扩展了对图神经网络领域中新型模型的探索,旨在提供不仅高性能而且能适应图计算发展的多功能加速器。
Dec, 2023
本研究解决了在芯片设计工作流程中关键的超图划分问题。通过引入合成划分基准,模拟真实网络特性,并对现有的顶尖划分算法与基于图神经网络的方法进行评估,揭示了它们各自的优缺点。这为VLSI超图划分提供了新的思路和方法,具有潜在的应用价值。
Sep, 2024