使用随机稀疏计算加速图神经网络训练

Oct, 2022

使用随机稀疏计算加速图神经网络训练

RSC: Accelerating Graph Neural Networks Training via Randomized Sparse Computations

Zirui Liu, Shengyuan Chen, Kaixiong Zhou, Daochen Zha, Xiao Huang...

TL;DR针对图神经网络训练过程中稀疏矩阵运算效率低下、采样也更加困难的问题，我们基于资源分配和缓存上一轮采样的解决方案，提出了一种名为随机稀疏计算的方法，能够在几乎不降低精度的情况下取得了专门针对稀疏矩阵运算加速的显著效果。

Abstract

The training of graph neural networks (GNNs) is extremely time consuming because sparse graph-based operations are hard to be accelerated by hardware. Prior art explores trading off the computational precision to reduce the time complexity via sampling-based →

graph neural networks sparse matrices approximation computation resource allocation randomized sparse computation

发现论文，激发创造

用于 GNN 加速的输入敏感型稠密 - 稀疏原始组合

本论文提出了一种新的稠密和稀疏矩阵基元的选择和组合方法，使用自适应策略来选择最佳组合，以加速在各种输入图形和 GNN 嵌入大小上的表现，并在与经过良好调整的基线的比较中展示出不同的协同表现优势。

Jun, 2023

在密集硬件上快速训练稀疏图神经网络

本研究通过优化稀疏矩阵算法，使用面向固定大小数据的平台扩展了稀疏图神经网络模型，使用 512 核 TPUv2 Pod 仅用 13 分钟训练，而原始训练需要近一天。

Jun, 2019

联合边模型稀疏学习对于图神经网络的可证明效率

本文从样本复杂度和收敛速率的角度，首次提供了从联合边缘 - 模型稀疏学习的理论特性，证明了重要节点抽样和低幅度神经元剪枝可以减少样本复杂度，提高收敛速度，而不影响测试精度。

Feb, 2023

基于分布式矩阵采样的图神经网络训练

该论文的主要贡献是在分布式图神经网络训练的采样步骤中提出了减少通信的新方法，其中包括基于矩阵的批量采样方法，用于表示采样为稀疏矩阵乘法（SpGEMM）并一次采样多个小批量。此外，还展示了使用简单的全互连交换合理复制特征数据可以优于当前的分布式图神经网络训练特征提取步骤的方法。

Nov, 2023

始终稀疏训练：引导随机探索下的连接增长

现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法，具有一流的大规模和更稀疏模型的线性时间复杂度，并通过引导随机探索算法改善了先前稀疏训练方法的准确性。

Jan, 2024

自私稀疏循环神经网络训练

本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法，利用非均匀分配细胞门的方法实现更好的正则化，并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能，在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。

Jan, 2021

SCNN：压缩稀疏卷积神经网络加速器

该论文介绍了一种名为 Sparse CNN 的卷积神经网络加速器体系结构，它可以通过利用 CNN 训练期间的网络修剪所产生的零值权重以及推理期间常见的 ReLU 算子产生的零值激活来提高性能和能源效率，从而减少数据传输和存储要求，并通过一种新型数据流方式有效地传递权重和激活值到乘法器阵列。该加速器在现代神经网络上可以将性能和能源效率分别提升 2.7 倍和 2.3 倍。

May, 2017

使用近似张量运算加速神经网络训练

通过对张量运算（矩阵乘法和卷积）应用基于样本的近似，提出了一种用于深度神经网络加速训练的新技术。应用到 MLP 和 CNN 网络的 MNIST，CIFAR-10 和 ImageNet 数据集的训练实验结果表明，该方法可以大幅度减少计算量和通讯量，并以不会对最终测试准确率产生可感知影响的方式提升训练速度。

May, 2018

稀疏持续 RNN：在芯片上压缩大规模循环神经网络

通过模型修剪和 GPU 优化，我们为稀疏 RNN 设计了一种高效的实现，包括 Lamport 时间戳、宽存储器负载和银行感知权重布局等优化措施，使得在隐藏层大小为 2304，批处理大小为 4，密度为 30% 时，我们的技术可实现超过 6 倍的加速效果，进一步，我们的技术使得大于 5 倍的模型大小可以适应于 GPU 以达到 2 倍的加速效果，最后我们在附录中进行了机器翻译和语音识别任务的案例研究，将循环层加速了最多 3 倍。

Apr, 2018

AUTOSPARSE: 深度神经网络稀疏训练自动化

本文提出通过渐进式变化策略的梯度退火（gradient annealing，GA）以及最新的可学习剪枝方法相结合的自动稀疏训练算法 AutoSparse，在 ImageNet-1K 数据集上表现优异，80% 稀疏 ResNet50 的训练和推断 FLOPS 减少分别达到 2 倍和 7 倍。与当前最好的稀疏到稀疏（sparse-to-sparse）方法 MEST 的表现相似，但使用的训练和推理 FLOPS 分别多 12％和 50％不到。

Apr, 2023