基于蒸馏和量化的模型压缩

ICLRFeb, 2018

Model compression via distillation and quantization

Antonio Polino, Razvan Pascanu, Dan Alistarh

TL;DR本文提出了两种新的模型压缩方法：量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明，在资源受限的环境中，量化浅层神经网络可以达到与全精度模型相似的准确性水平，同时提供数量级压缩和推断加速。

Abstract

deep neural networks (DNNs) continue to make significant advances, solving tasks from image classification to translation or reinforcement learning. One aspect of the field receiving considerable attention is efficiently executing deep models in →

deep neural networks compression methods quantization distillation resource-constrained environments

发现论文，激发创造

数据集量化

用于训练任何神经网络架构的新的数据集压缩方法 (DQ) 能够通过压缩大规模数据集生成精简小数据集，实现了无损模型训练的最新压缩比，可用于视觉任务和语言任务。

Aug, 2023

在 CPU 上的扩散模型的有效量化

通过结合量化感知训练和蒸馏方法，我们提出了一种新的扩散模型量化方法，可以在维持高图像质量的同时，在 CPU 上展示出高效推断能力。

Nov, 2023

深度神经网络自适应量化

本文提出了一种针对深度模型量化的优化框架和量化算法，首次理论分析单个图层的参数量化误差与模型精度之间的关系，达到了比以前的优化方法更高的压缩率和相同模型精度下更高的压缩率。

Dec, 2017

深度神经网络模型压缩与加速综述

本文对深度神经网络模型压缩和加速的最新技术进行了回顾，介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点，同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力，并讨论了面临的挑战和未来方向。

Oct, 2017

量化模型行为特征和可靠部署的理解和表征

本文详细研究量化模型的行为特征，通过考虑 4 个跨越图像到文本的数据集，8 种深度学习网络架构，以及包含合成和自然分布转移的 42 个转移集，揭示出在看不见的数据上的行为特征，同时指出量化训练可以产生更稳定的模型，$Margin$ 是 quantized 模型中不确定性度量的更好指标.

Apr, 2022

深度神经网络压缩的可微细粒度量化

本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法，通过在不同结构、层次上采用不同的精度，达到更好的压缩比和准确率的平衡。实验结果表明，与传统量化方法相比，该方法在相同压缩率下表现更优。

Oct, 2018

触不得的易碎品：对比量化和蒸馏的稳定性以发展轻量低资源机器翻译模型

本文研究了利用共享学习通过跨多语言模型实现低资源语种机器翻译的方法，探讨了知识蒸馏和后训练量化等压缩模型的技术，并发现后训练量化在所有语种中表现更加稳定。

Oct, 2022

硬件感知的 DNN 压缩：通过多样化剪枝和混合精度量化

通过联合采用修剪和量化，利用强化学习探索与低能耗相关的设计空间及其精度损失，我们提出了一种自动压缩深度神经网络的硬件感知框架，能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明，相比现有方法，我们的框架平均能耗降低 39%，平均精度损失为 1.7%。

Dec, 2023

使用单级和多级量化的深度神经网络压缩

本文提出了两种新的网络量化方法，即高位量化的单层网络量化（SLQ）和极低位量化（三元）的多层网络量化（MLQ），两种方法均在有效利用深度信息方面表现出色。

Mar, 2018

DQ-BART: 联合蒸馏和量化的高效序列转序列模型

本文针对预训练模型在资源受限情况下，因占用大量内存和高延迟而面临的挑战，提出联合蒸馏和量化的方法，成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比，而性能相对于完整精度版本并没有明显下降，并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析，此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。

Mar, 2022