学习实例稀疏性加速深度模型

IJCAIJul, 2019

Learning Instance-wise Sparsity for Accelerating Deep Models

Chuanjian Liu, Yunhe Wang, Kai Han, Chunjing Xu, Chang Xu

TL;DR本篇研究探讨了从不同角度解决深度神经网络在机器学习任务中高效且低内存使用的问题，提出了基于实例的特征修剪方法，并使用变异系数作为度量标准进行层选择，实验结果表明该方法有效。

Abstract

Exploring deep convolutional neural networks of high efficiency and low memory usage is very essential for a wide variety of machine learn

deep convolutional neural networks efficiency memory usage instance-wise feature pruning coefficient of variation

发现论文，激发创造

具有粗糙剪枝的紧凑卷积神经网络

通过对特征图和卷积核级别进行修剪，可以减少深度卷积神经网络的计算复杂性，而且在 CIFAR-10 数据集上的实验证明，在保持基线网络误分类率不到 1% 的情况下，可以在卷积层中引入超过 85% 的稀疏性。

Oct, 2016

使用稀疏卷积和指导剪枝加速 CNN

本文提出一种同时实现卷积神经网络的规模经济和速度提升的方法，包括一种有效的一般性稀疏 - 稠密矩阵乘法实现以及一种性能模型，可以预测不同层和不同计算机架构的稀疏水平的最佳值，该方法可在包括移动设备和超级计算机在内的各种处理器上实现 3.1-7.3 倍的卷积速度提升。

Aug, 2016

深度学习中的稀疏性：剪枝和生长用于神经网络的高效推理和训练

本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状，并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程，指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。

Jan, 2021

关于卷积神经网络中隐式滤波器级别稀疏性的研究

研究表明，使用 Batch Normalization 和 ReLU 激活的卷积神经网络，在采用适应性梯度下降和 L2 正则化或权重衰减训练的情况下，会出现滤波器级别的稀疏性，这种隐式的稀疏性可以利用以达到神经网络加速的效果。

Nov, 2018

高效卷积神经网络中的滤波器裁剪

本文提出了一种基于滤波器减少方法的 CNNs 加速方法，它不依赖稀疏卷积库，通过移除对输出准确性影响较小的整个滤波器及其连接的特征图，大大降低了计算成本，在 CIFAR10 数据集上可以使 VGG-16 推理时间减少 34%、ResNet-110 推理时间减少 38%，并且通过重新训练网络可以接近原始准确性。

Aug, 2016

通过划分稀疏矩阵块提高无硬件支持的稀疏 DNN 模型加速

本文提出了一种算法 - 软件共同设计的剪枝方法，采用 “分块友好” 的稀疏模式来实现现有的密集结构上的延迟加速，旨在解决原先稀疏模型上由于随机分布权重导致计算不规则的问题，在 GPU 笔记本上成功地实现了 1.95 倍速度提升的优化效果。

Aug, 2020

基于数据驱动的深度神经网络稀疏结构选择

本文提出了一种简单有效的框架来对深度模型进行端到端的剪枝，方法是先引入一个称为 “缩放因子” 的新参数来缩放特定结构的输出，然后对这些因子加入稀疏正则化，并通过修改的随机加速远端梯度（APG）方法解决这个优化问题。将某些因子强制为零，可以安全地移除对应的结构，从而削减 CNN 的不重要部分，该方法相较于其他需要数千次试验或迭代微调的结构选择方法具有更好的性能。

Jul, 2017

通过修剪激活梯度加速 CNN 训练

通过修剪更小的梯度和考虑激活梯度的统计分布，我们提出了一种方法来加速 CNN 训练，这将不会影响准确率。

Aug, 2019

卷积神经网络中的隐式滤波器稀疏化

研究发现，在采用批归一化和 ReLU 激活以及使用自适应梯度下降技术和 L2 正则化或权值衰减训练的卷积神经网络中，存在着隐式过滤器级别稀疏性，这可能与某些在文献中提出的过滤器稀疏化启发式的特定联系有关。进一步观察表明，特定功能的出现和随后的修剪是导致特征稀疏化的机制之一，导致的特征稀疏性与某些显式稀疏化 / 修剪方法相当甚至更好。本文总结了研究发现，并指出了选择性功能处罚的推论，这也可作为过滤器修剪的启发式方法。

May, 2019

在 GPU 上实现高效的 DNN 推断的平衡稀疏性

本文提出一种新的 fine-grained sparsity 方法，即平衡稀疏化方法，使得深度学习模型在商用硬件上得以高效地获得准确性和加速，同时利用 GPU 的高并行特性，取得了高达 3.1 倍的实际加速效果。

Nov, 2018