用于 GNN 加速的输入敏感型稠密 - 稀疏原始组合
针对图神经网络训练过程中稀疏矩阵运算效率低下、采样也更加困难的问题,我们基于资源分配和缓存上一轮采样的解决方案,提出了一种名为随机稀疏计算的方法,能够在几乎不降低精度的情况下取得了专门针对稀疏矩阵运算加速的显著效果。
Oct, 2022
稀疏矩阵计算是科学计算中无处不在的。近期对科学机器学习的兴趣使得人们自然而然地问及稀疏矩阵计算如何利用神经网络。然而,多层感知机(MLP)神经网络通常不适用于图形或稀疏矩阵计算。本文旨在为数值线性代数的读者介绍图神经网络(GNNs),并提供具体示例以说明如何使用 GNNs 完成许多常见的线性代数任务。同时,我们专注于使用计算核心如矩阵 - 向量乘积、插值、松弛方法和连接强度等迭代方法。期望通过本文使计算科学家了解如何将 GNNs 用于适应与稀疏矩阵相关的计算任务,并希望这种理解能够促进经典稀疏线性代数任务的数据驱动扩展。
Oct, 2023
本研究通过优化稀疏矩阵算法,使用面向固定大小数据的平台扩展了稀疏图神经网络模型,使用 512 核 TPUv2 Pod 仅用 13 分钟训练,而原始训练需要近一天。
Jun, 2019
本文介绍了一种稀疏实现的图信息层,以提高图神经网络的计算效率和可伸缩性,通过利用邻接矩阵的稀疏性来显著减少内存使用,同时引入了一种灵活的通用形式的图信息层,使其适用于图节点的子集。
Mar, 2024
基于 AMD Versal ACAP 架构,利用数据稀疏性加速图神经网络(GNN)推理,通过自定义硬件模块在可编程逻辑(PL)上执行稀疏计算,利用 AI Engine(AIE)高效计算稠密计算部分,并通过动态分配计算任务的运行时内核映射策略在 PL 和 AIE 上分别进行计算,从而在 VCK5000 ACAP 平台上相比于 CPU、GPU、ACAP 和其他自定义 GNN 加速器实现获得更好的性能,平均速度提升分别为 162.42x、17.01x、9.90x 和 27.23x,对于图卷积网络(GCN)推理,相对于仅使用 PL 设计的方案在同一 ACAP 设备上获得了 3.9-96.7 倍的速度提升。
Aug, 2023
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
图稀疏训练(GST)提出了一种动态调整数据层稀疏度的方法,通过 Equilibria Sparsification Principle 来实现拓扑和语义信息的平衡,从而产生一个具有最大拓扑完整性且没有性能下降的稀疏图。
Feb, 2024
该论文的主要贡献是在分布式图神经网络训练的采样步骤中提出了减少通信的新方法,其中包括基于矩阵的批量采样方法,用于表示采样为稀疏矩阵乘法(SpGEMM)并一次采样多个小批量。此外,还展示了使用简单的全互连交换合理复制特征数据可以优于当前的分布式图神经网络训练特征提取步骤的方法。
Nov, 2023
该论文提出了一种基于 L0 正则化的 Sparse Graph Attention Networks,可以对大规模、复杂的图进行特征聚合,鲁棒性与有效性更高,达到与原始图相同或更高的预测性能;同时,其使用结果可视化和量化表达,让人更加容易理解。
Dec, 2019