剪枝 vs 量化：哪个更好？

Jul, 2023

Pruning vs Quantization: Which is Better?

Andrey Kuzmin, Markus Nagel, Mart van Baalen, Arash Behboodi, Tijmen Blankevoort

TL;DR对神经网络剪枝和量化技术进行了广泛的比较，结果显示在大多数情况下，量化优于剪枝，只有在极高的压缩比下，剪枝在准确性方面可能带来好处。

Abstract

neural network pruning and quantization techniques are almost as old as neural networks themselves. However, to date only ad-hoc comparisons between the two have been published. In this paper, we set out to answe

neural network pruning quantization techniques comparing techniques deep neural networks compression ratio

发现论文，激发创造

深度神经网络加速的修剪与量化：一份调查报告

本文介绍了深度神经网络中两种压缩技术 —— 剪枝和量化，比较了它们的优劣，并且提出了相关的压缩网络的实用指南。

Jan, 2021

面向硬件特定的神经网络自动压缩技术

使用强化学习方法的算法框架 Galen，可以自动压缩特定硬件目标的神经网络模型，不仅支持修剪、量化等压缩方法的联合搜索，还将目标硬件设备上的推理延迟作为优化目标，通过该方法能够将 CIFAR-10 上的 ResNet18 模型，在嵌入式 ARM 处理器上推理延迟仅为原始延迟的 20%，精度损失不大。

Dec, 2022

使用单次剪枝量化压缩深度神经网络

本文提出了一种新颖的一次性剪枝量化（OPQ）方法，使用预先训练的模型参数解决剪枝和量化问题，并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验，结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。

May, 2022

深度压缩：剪枝、量化训练和霍夫曼编码压缩深度神经网络

该论文介绍了一种名为 “深度压缩” 的技术，通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍，而同时不影响网络的准确性，该技术可以在嵌入式系统中使用，可以极大地提升模型的应用性能。

Oct, 2015

自然语言任务上结合压缩的乘法尺度缩放

本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪，发现量化和知识蒸馏提供了比修剪更大的好处，同时多种方法的组合具有协同减小模型大小的效果。

Aug, 2022

优化量化深度神经网络的微调：基于过滤的预剪枝方法

该研究提出了一种减小深度神经网络 (DNNs) 体积的方法 —— 使用低位表达来量化预训练模型的权重和激活数据，并提出了基于剪枝的新方法 PfQ 来解决深度中间层权重动态范围宽导致的量化误差和准确度下降的问题。

Nov, 2020

硬件感知的 DNN 压缩：通过多样化剪枝和混合精度量化

通过联合采用修剪和量化，利用强化学习探索与低能耗相关的设计空间及其精度损失，我们提出了一种自动压缩深度神经网络的硬件感知框架，能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明，相比现有方法，我们的框架平均能耗降低 39%，平均精度损失为 1.7%。

Dec, 2023

深度神经网络剪枝调查 —— 分类、比较、分析和建议

现代深度神经网络中，网络压缩已成为一项重要研究方向。本文通过综述现有文献，详细介绍了深度神经网络剪枝的研究方法、剪枝的不同层次以及未来发展方向，并提出了有价值的推荐建议。

Aug, 2023

基于稀疏性视角的深度神经网络剪枝

本文提出了 PQ Index (PQI) 作为衡量深度神经网络可压缩性的量化指标，并基于此开发了一种基于稀疏性信息的自适应裁剪算法 (SAP)，该算法在压缩效率和稳健性方面优于遗传算法等迭代型裁剪算法。

Feb, 2023

可微联合剪枝和量化提高硬件效率

我们提出了一种可微的联合剪枝和量化 (DJPQ) 方案，将神经网络压缩视为联合基于梯度的优化问题，在模型剪枝和量化之间自动地进行权衡，以实现硬件效率，相比之下，我们的方法使用户能够在单个培训过程中找到两者之间的最佳权衡。

Jul, 2020