压缩 DMA 引擎：利用激活稀疏化训练深度神经网络

May, 2017

压缩 DMA 引擎：利用激活稀疏化训练深度神经网络

Compressing DMA Engine: Leveraging Activation Sparsity for Training Deep Neural Networks

Minsoo Rhu, Mike O'Connor, Niladrish Chatterjee, Jeff Pool, Stephen W. Keckler

TL;DR本文介绍了一种基于压缩 DMA 引擎的高性能虚拟化策略，通过利用离线数据中的稀疏性，提高了虚拟 DNN 的性能，平均性能提升 32％(最大可达 61％)。

Abstract

Popular deep learning frameworks require users to fine-tune their memory usage so that the training data of a deep neural network (DNN) fits within the GPU physical memory. Prior work tries to address this restriction by virtualizing the memory usage of DNNs, enabling both CPU and

deep learning gpu memory virtualization compressing dma engine performance

发现论文，激发创造

AdaDeep: 一种面向应用的、自动化的深度模型压缩框架，以实现普适智能移动

AdaDeep 是一种自适应深度神经网络压缩框架，可在考虑性能和资源约束方面自动选择最合适的压缩技术和相应的压缩超参数，可以在减少 DNN 的延迟、提高能效和减少存储的同时保持准确率基本不变。

Jun, 2020

通过多级原位生成实现内存高效神经网络

本研究提出了一种通用和统一的框架，通过多级现场生成机制和混合精度基准，实现了高分辨率参数的即时恢复，从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算，提高了内存效率 10-20 倍。

Aug, 2021

大规模神经架构的反向传播压缩：结构化激活剪枝

通过在深度神经网络中采用结构化修剪和块稀疏性操作，目前的研究旨在通过减少激活值的内存消耗来减小 GPU 内存需求，从而降低大规模模型训练的要求并解决生态环境问题。

Nov, 2023

高效深度学习的动态稀疏图

本文提出了一种通过动态和稀疏的图结构来执行深度神经网络（DNNs）进行压缩存储和加速执行的方法，该方法在训练和推断时均可应用，以优化深度神经网络的轻量化模型。实验证明该方法可以显著提供存储和操作的性能，并在各种基准测试中几乎无损失地维护准确性。

Oct, 2018

SmartExchange: 以低成本计算为代价获取更高成本的存储 / 访问

SmartExchange 是一种算法 - 硬件协同设计框架，将高成本的存储 / 访问内存与低成本的计算交换，用于深度神经网络的能量高效推理。该算法通过强制一种特殊的 DNN 权重结构，成功将稀疏化、分解和量化三种主流模型压缩思想集成进一个统一框架中，最终得到的稀疏、易于量化的 DNN 具有极低的能耗和存储空间需求。此外，该研究还设计了一个专用加速器，可充分利用 SmartExchange 所强制的权重，改进深度神经网络的能效和延迟表现。

May, 2020

压缩深度神经网络的高效推理引擎 EIE

本文提出了一种名为 EIE 的能效推理引擎，可以对压缩的神经网络模型进行推理，并通过重复使用权重来加速结果的稀疏矩阵 - 向量乘法，从而实现显著的能效提升。

Feb, 2016

为减少 DNN 加速器的片外数据访问而结合调度、内存分配和张量替换

通过一个名为 COSMA 的优化框架，我们能够在专用硬件加速器上为 DNNs 找到最佳的操作调度、内存分配和张量替换方式，从而最小化额外数据访问，同时通过分而治之的启发式方法可以将复杂 DNNs 的数据访问降低 85% 以上。

Nov, 2023

通过半结构化激活稀疏化加速深度神经网络

通过在计算通用矩阵乘法（GEMM）时考虑激活的最终位置，我们设计了一种稀疏训练过程，以诱导可利用的半结构化激活稀疏性，并在图像分类和目标检测任务中对其进行了广泛评估，结果显示在 ImageNet 数据集上，我们的方法在 ResNet18 模型上实现了 1.25 倍的加速，并仅有 1.1% 的最小精度降低；另外，与先进的结构化剪枝方法相结合，得到的模型在延迟和准确性之间取得了很好的平衡，优于仅采用结构化剪枝技术的模型。

Sep, 2023

CAMEL: 针对设备上高效学习，协同设计人工智能模型和嵌入式 DRAM

本研究提出了使用嵌入式动态随机访问存储器 (eDRAM) 作为训练数据的主要存储介质来解决物联网 (IoT) 边缘设备上的深度神经网络训练问题，并设计了一种新颖的可逆 DNN 架构和高效的设备端训练引擎 CAMEL 来实现不需 eDRAM 刷新的数据训练过程，从而大大减少了 DNN 训练的能耗并在验证精度上实现了类似（甚至更好）的性能。

May, 2023

SuperNeurons: 为深度神经网络训练提供动态 GPU 内存管理

SuperNeurons 是一种 GPU 内存调度运行时，采用三种内存优化技术，联合使用从而将网络宽度与深度推向新高度，并解决 Deep Learning 从业者由于 GPU 内存受限而需要修改网络架构或手动分配显存的问题。

Jan, 2018