深度压缩：剪枝、量化训练和霍夫曼编码压缩深度神经网络

ICLROct, 2015

深度压缩：剪枝、量化训练和霍夫曼编码压缩深度神经网络

Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding

Song Han, Huizi Mao, William J. Dally

TL;DR该论文介绍了一种名为 “深度压缩” 的技术，通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍，而同时不影响网络的准确性，该技术可以在嵌入式系统中使用，可以极大地提升模型的应用性能。

Abstract

neural networks are both computationally intensive and memory intensive, making them difficult to deploy on embedded systems with limited hardware resources. To address this limitation, we introduce "deep compression

neural networks deep compression pruning quantization huffman coding

发现论文，激发创造

深度神经网络加速的修剪与量化：一份调查报告

本文介绍了深度神经网络中两种压缩技术 —— 剪枝和量化，比较了它们的优劣，并且提出了相关的压缩网络的实用指南。

Jan, 2021

使用单次剪枝量化压缩深度神经网络

本文提出了一种新颖的一次性剪枝量化（OPQ）方法，使用预先训练的模型参数解决剪枝和量化问题，并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验，结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。

May, 2022

面向硬件特定的神经网络自动压缩技术

使用强化学习方法的算法框架 Galen，可以自动压缩特定硬件目标的神经网络模型，不仅支持修剪、量化等压缩方法的联合搜索，还将目标硬件设备上的推理延迟作为优化目标，通过该方法能够将 CIFAR-10 上的 ResNet18 模型，在嵌入式 ARM 处理器上推理延迟仅为原始延迟的 20%，精度损失不大。

Dec, 2022

深度神经网络在线压缩

本文介绍了一种新的深度神经网络压缩方法，在学习阶段增加额外的正则化项来减小全连接层的参数量，并结合 PQ 权重的量化以更节约存储空间。在 MNIST 和 CIFAR10 数据集上进行评估，与现有方法相比，压缩率显著提高。

Sep, 2015

硬件感知的 DNN 压缩：通过多样化剪枝和混合精度量化

通过联合采用修剪和量化，利用强化学习探索与低能耗相关的设计空间及其精度损失，我们提出了一种自动压缩深度神经网络的硬件感知框架，能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明，相比现有方法，我们的框架平均能耗降低 39%，平均精度损失为 1.7%。

Dec, 2023

通过两阶段深度强化学习进行深度模型压缩

本文主要探讨了一种基于强化学习技术的卷积神经网络模型压缩方法，该方法实现了两阶段压缩：剪枝和量化，并在 CIFAR-10 和 ImageNet 数据集进行了实验，结果表明该方法能够在减小模型大小的同时保证分类精度。

Dec, 2019

通用深度神经网络压缩

本文研究深度神经网络的权重量化和无损源编码的有损压缩以实现内存有效部署，通过引入通用向量量化和通用源编码，实现了通用的深度神经网络压缩，并尝试运用通用随机格量化方法来随机化神经网络权重，证明该方法在压缩 32 层的 ResNet 和 AlexNet 时具有较高的压缩比和较低的失真率。

Feb, 2018

神经网络压缩的软权重共享

本文介绍一种简单的深度学习模型压缩方法，该方法结合了量化和修剪步骤，并与最小描述长度（MDL）原理紧密相关。

Feb, 2017

利用矢量量化压缩深度卷积网络

本文探讨信息理论中的向量量化方法，用于压缩卷积神经网络中的参数，结果表明针对最消耗存储的稠密连接层使用向量量化方法比现有的矩阵分解方法更加高效，仅使用最先进的 CNN 模型在 ImageNet 挑战赛的 1000 分类任务中，即使损失 1% 的分类准确率，也能获得 16-24 倍的网络压缩优化。

Dec, 2014

深度神经网络模型压缩与加速综述

本文对深度神经网络模型压缩和加速的最新技术进行了回顾，介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点，同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力，并讨论了面临的挑战和未来方向。

Oct, 2017