高亮:基于分层结构稀疏性的高效灵活的 DNN 加速
利用软硬件协同优化的方法,我们提出了一种针对数据流加速器的利用非结构化稀疏性的新方法,通过一系列模型,在现有的疏松设计中实现了从 1.3 倍到 4.2 倍的效率提升,特别是 MobileNetV3 的吞吐量可以优化到 4895 张图像每秒。HASS 是开源的:https://github.com/Yu-Zhewen/HASS
Jun, 2024
通过张量近似和结构分解的方法,该研究提出了一种软件框架(TASDER),以更好地支持硬件加速稀疏深度神经网络,并在能耗延迟乘积上平均提升了 83% 至 74%。
Mar, 2024
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
本文研究了一种 N:M 级别的深度神经网络稀疏网络,在专门设计的 GPU 上同时具有非结构化细粒度稀疏性和结构化粗粒度稀疏性的优点,解决了传统稀疏网络的效率问题,同时提出了一种 Sparse-refined Straight-through Estimator 方法,解决了传统优化方法下的负面影响。
Feb, 2021
本文提出了一种通过动态和稀疏的图结构来执行深度神经网络(DNNs)进行压缩存储和加速执行的方法,该方法在训练和推断时均可应用,以优化深度神经网络的轻量化模型。实验证明该方法可以显著提供存储和操作的性能,并在各种基准测试中几乎无损失地维护准确性。
Oct, 2018
通过在深度神经网络中采用结构化修剪和块稀疏性操作,目前的研究旨在通过减少激活值的内存消耗来减小 GPU 内存需求,从而降低大规模模型训练的要求并解决生态环境问题。
Nov, 2023
本文提出了一种结构稀疏学习方法,用于规范深度神经网络的结构和减少计算开销,通过 SSL 算法,可以在 CPU 和 GPU 设备中获得 5.1x 和 3.1x 的卷积层计算加速,同时可以通过规范 DNN 结构来提高分类准确性。
Aug, 2016
介绍了一种新的基于模式的稀疏性方法,该方法包括模式和连接度稀疏性,旨在通过权重剪枝同时提高模型准确度和硬件加速性能,并提供了一种针对移动设备的高效 DNN 执行的解决方案。
Jan, 2020
我们提出了一个可配置的内存层次结构框架,旨在为深度神经网络 (DNNs) 的自适应内存访问模式提供数据,并在最小化所需内存容量的同时维持高加速器性能方面达到优化平衡。
Apr, 2024
提出了一个计算高效的 N:M 稀疏深度神经网络(DNN)训练方案,包括算法、架构和数据流共同设计,并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练,在几种 DNN 模型和数据集上的实验结果表明,在 2:8 稀疏比率下,该方案相对于密集训练可实现平均 1.75 倍的加速,准确度损失平均仅为 0.56%,在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍,能效提高了 1.36~3.58 倍。
Sep, 2023