权重块稀疏化:训练、编译与人工智能引擎加速器
本文提出一种新的fine-grained sparsity方法,即平衡稀疏化方法,使得深度学习模型在商用硬件上得以高效地获得准确性和加速,同时利用GPU的高并行特性,取得了高达3.1倍的实际加速效果。
Nov, 2018
本文介绍了一种基于 unstructured sparsity 的 code generator - SparseRT,通过对于1x1 convolutions 以及 fully connected layers 进行计算,该方法相对于 equivalent dense computation 速度提升了 3.4x 至 5.4x,同时处理 ResNet-50 的 sparse 3x3 convolutions 取得了 5x 的速度提升,能够有效地加速 GPU 上的深度学习操作。
Aug, 2020
本文提出了一种算法-软件共同设计的剪枝方法,采用“分块友好”的稀疏模式来实现现有的密集结构上的延迟加速,旨在解决原先稀疏模型上由于随机分布权重导致计算不规则的问题,在GPU笔记本上成功地实现了1.95倍速度提升的优化效果。
Aug, 2020
本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状,并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程,指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。
Jan, 2021
本研究提出了一种新的称为掩码多样性的度量方法来降低DNN的内存占用,并介绍了一种可同时用于前向和后向传递的新型可转置细粒度稀疏掩码,通过使用最小成本流问题来寻找最优的可转置掩码,并且还提出了一种将无结构稀疏模型转换为N:M细粒度块稀疏模型的方法。
Feb, 2021
介绍了 NVIDIA Ampere GPU 架构中的稀疏张量核心 (Sparse Tensor Cores),它们利用了 2:4 的稀疏模式,通过两倍的数学吞吐量加速了稠密矩阵单元,并提出了一种简单的工作流程以训练满足 2:4 稀疏模式和保持准确性的网络,从而在稀疏张量核心上实现精确模型的高效部署。
Apr, 2021
本研究提出使用多种BFP精度并结合算法优化的方法来加速训练深度神经网络,并基于此设计了一种灵活的训练加速器FlexBlock,与其他训练加速器相比,在CIFAR、ImageNet和WMT14数据集上,训练速度提高了1.5~5.3倍,能效提高了2.4~7.0倍,准确度有所下降。
Mar, 2022
我们引入了稀疏屋顶线,一种用于评估神经网络中稀疏性能的视觉性能模型。该模型同时考虑了网络准确性、稀疏性和预测的推理加速度。通过使用一种新颖的分析模型预测稀疏网络性能,并通过在多个真实世界计算机视觉架构上对稀疏模式和程度进行验证,我们验证了预测的推理加速度。我们通过两个案例研究展示了我们模型的实用性和易用性:(1)我们展示了机器学习研究人员如何预测未实现或未优化的块结构稀疏模式的性能,(2)我们展示了硬件设计人员如何预测硬件中新的稀疏模式和稀疏数据格式的性能影响。在这两种情况下,稀疏屋顶线帮助性能专家确定具有最高性能潜力的稀疏区域。
Sep, 2023
通过在深度神经网络中采用结构化修剪和块稀疏性操作,目前的研究旨在通过减少激活值的内存消耗来减小GPU内存需求,从而降低大规模模型训练的要求并解决生态环境问题。
Nov, 2023
利用软硬件协同优化的方法,我们提出了一种针对数据流加速器的利用非结构化稀疏性的新方法,通过一系列模型,在现有的疏松设计中实现了从1.3倍到4.2倍的效率提升,特别是MobileNetV3的吞吐量可以优化到4895张图像每秒。HASS是开源的:https://github.com/Yu-Zhewen/HASS
Jun, 2024