通过伪量化噪声实现可微分的模型压缩

Apr, 2021

通过伪量化噪声实现可微分的模型压缩

Differentiable Model Compression via Pseudo Quantization Noise

Alexandre Défossez, Yossi Adi, Gabriel Synnaeve

TL;DR本文提出了 DiffQ，一种不需要渐近梯度估计的可微方法，用于在训练期间对模型参数进行量化。DiffQ 在多个基准测试和体系结构上进行了实验验证，对于图像分类、语言建模和音频源分离等任务，能够优化每个权重或一组权重使用的位数，并在模型精度损失 0.3% 的情况下将 12 层的变压器模型压缩了超过 8 倍。

Abstract

We propose diffq a differentiable method for model compression for quantizing model parameters without gradient approximations (e.g., Stra

diffq differentiable model compression quantization hyper-parameter

发现论文，激发创造

利用量化噪音进行极限模型压缩的训练

本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题，将讨论延伸量化感知训练的方法，实现了仅在每个前向传递过程中量化不同的一组随机权重，从而利用 SE 残差正向时间传递的无偏梯度实现极端压缩的目的，并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。

Apr, 2020

混合精度和自适应分辨率的可微分动态量化

我们提出了一种完全可微的方法，名为 differentiable dynamic quantization (DDQ)，可用于学习模型量化中的所有超参数，通过实验表明 DDQ 在像 MobileNet 这样的轻量架构上表现最好，并且 DDQ 是硬件友好型。

Jun, 2021

EfficientDM: 高效的低位扩散模型量化感知微调

提出了一种数据自由且参数高效的优化方法 EfficientDM，它通过引入量化感知的低秩适配器 QALoRA 来实现 QAT 级别的性能与 PTQ 的效率相似，从而优化低位扩散模型的性能，并且在时间和数据效率方面显著超过之前基于 PTQ 的扩散模型。

Oct, 2023

深度神经网络压缩的可微细粒度量化

本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法，通过在不同结构、层次上采用不同的精度，达到更好的压缩比和准确率的平衡。实验结果表明，与传统量化方法相比，该方法在相同压缩率下表现更优。

Oct, 2018

扩散模型的训练后量化

本文介绍了如何加速去噪扩散生成模型的生成过程，通过对去噪网络进行压缩，在不进行重新训练的情况下，将完全精度的 DM 量化为 8 位模型，并可在其他快速采样方法上使用。

Nov, 2022

MixDQ: 高效节省内存的几步文本到图像扩散模型与度量分离混合精度量化

通过开发一种混合精度量化框架 MixDQ，我们针对强敏感度文本嵌入进行专门的 BOS 感知量化方法设计，通过度量解耦灵敏度分析来衡量每一层的敏感度，最后通过基于整数规划的方法进行位宽分配，与现有的量化方法相比，MixDQ 在保持 W8A8 品质的同时，实现了模型大小和内存成本的 3-4 倍减少，和 1.45 倍的延迟加速。

May, 2024

PTQD：针对扩散模型的精确后训练量化

本研究提出了一种用于量化噪声和扩散扰动噪声的统一方法，并使用所提出的混合精度方案，校准降噪方差表并选取每个降噪步骤的最佳位宽，显著提高了量化后扩散模型的样本质量且减少了操作次数。

May, 2023

Q-DiT：扩散变压器的准确后训练量化

Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法，用于处理 Diffusion Transformer（DiT）模型中的权重和激活的巨大变化，以实现高效、高质量的量化和图像生成。

Jun, 2024

软硬结合：重新思考神经图像压缩中的量化

提出了一种软硬编码的方法用于神经图像压缩，通过先学习一个表达力强的隐变量空间，再采用硬编码方法解决了训练集和测试集不匹配的问题，同时引入加性噪声自适应控制量化粒度，实验结果表明该方法在复杂压缩模型上表现稳定且有效。

Apr, 2021

基于蒸馏和量化的模型压缩

本文提出了两种新的模型压缩方法：量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明，在资源受限的环境中，量化浅层神经网络可以达到与全精度模型相似的准确性水平，同时提供数量级压缩和推断加速。

Feb, 2018