高质量扩散模型的低比特浮点量化

Aug, 2024

高质量扩散模型的低比特浮点量化

Low-Bitwidth Floating Point Quantization for Efficient High-Quality Diffusion Models

Cheng Chen, Christina Giannoula, Andreas Moshovos

TL;DR本研究解决了现有扩散模型在低比特量化后图像质量下降的问题。提出了一种有效的浮点量化方法，能够在8位浮点量化下实现与全精度模型相当的图像质量。该方法的应用对扩散模型的推理效率和图像质量都有显著的提升潜力。

Abstract

diffusion models are emerging models that generate images by iteratively denoising random Gaussian noise using deep neural networks. These models typically exhibit high computational and memory demands, necessitating effective post-training →

发现论文，激发创造

PTQD：针对扩散模型的精确后训练量化

本研究提出了一种用于量化噪声和扩散扰动噪声的统一方法，并使用所提出的混合精度方案，校准降噪方差表并选取每个降噪步骤的最佳位宽，显著提高了量化后扩散模型的样本质量且减少了操作次数。

May, 2023

EfficientDM: 高效的低位扩散模型量化感知微调

提出了一种数据自由且参数高效的优化方法 EfficientDM，它通过引入量化感知的低秩适配器 QALoRA 来实现 QAT 级别的性能与 PTQ 的效率相似，从而优化低位扩散模型的性能，并且在时间和数据效率方面显著超过之前基于 PTQ 的扩散模型。

Oct, 2023

文本到图像扩散模型的渐进校准和激活松弛的后训练量化

我们提出了一种新的文本到图像扩散模型的后训练量化方法PCR（渐进校准和放松），它包括了一种渐进校准策略，考虑了时间步长上的积累量化误差，以及一种激活放松策略，在性能提升方面几乎没有成本。另外，我们展示了文本到图像扩散模型量化的先前度量不准确的问题，并提出了一种新的QDiffBench基准，利用相同领域的数据进行更准确的评估。此外，QDiffBench还考虑了量化模型在校准数据集之外的泛化性能。对Stable Diffusion和Stable Diffusion XL的广泛实验证明了我们的方法和基准的优越性。此外，我们是首次在保持性能的同时实现了Stable Diffusion XL的量化。

Nov, 2023

在CPU上的扩散模型的有效量化

通过结合量化感知训练和蒸馏方法，我们提出了一种新的扩散模型量化方法，可以在维持高图像质量的同时，在CPU上展示出高效推断能力。

Nov, 2023

QuEST: 低比特扩散模型量化的高效选择性微调

通过优化活化分布和关键量化层，本文解决了低位量化对扩散模型性能的影响，并在各种位宽设置下实现了最先进的高分辨率图像生成。

Feb, 2024

BinaryDM: 混合扩散模型的准确二值化

本研究提出了BinaryDM，一种新颖的准确的量化感知训练方法，以将扩散模型的权重推向1位极限。使用Learnable Multi-basis Binarizer (LMB)来恢复二元化扩散模型生成的表示，并使用Low-rank Representation Mimicking (LRM)来提高二元化感知优化。通过渐进的初始化策略训练扩散模型，可以避免收敛困难。全面的实验证明，与超低位宽下的DM的SOTA量化方法相比，BinaryDM在精度和效率上都取得了显著的改进。作为扩散模型的第一种二元化方法，BinaryDM在具有1位权重和4位激活的情况下可实现16.0倍的FLOPs和27.1倍的存储节省，展示了其在资源有限场景中的巨大优势和潜力。

Apr, 2024

高效的FP4混合量化扩散变换器（HQ-DiT）

Diffusion Transformers (DiTs) are improved by Hybrid Floating-point Quantization (HQ-DiT), a post-training quantization method utilizing 4-bit floating-point precision on both weights and activations, resulting in low-precision quantization with minimal impact on performance.

May, 2024

BitsFusion：扩散模型的1.99位权重量化

通过开发一种新的权重量化方法，将稳定扩散 v1.5 的 UNet 模型量化为 1.99 位，实现模型尺寸减小7.9倍，同时展现更好的生成质量。

Jun, 2024

时间步感知纠正量化扩散模型

通过时间步感知的纠正方法，我们提出了一种对量化扩散模型进行修正的方法，以解决在低精度情况下误差积累和暴露偏差导致的问题，并在低精度模型上取得了出色的效果。

Jul, 2024

DilateQuant：通过权重扩展实现准确高效的扩散量化

本研究解决了扩散模型在低比特量化中准确性与效率难以兼得的问题。作者提出了一种新颖的量化框架DilateQuant，利用未饱和的通道权重通过权重扩展（WD）来缩小激活范围，从而简化激活量化，并使用时间并行量化器（TPQ）和块级知识蒸馏（BKD）进一步提升性能。研究的关键发现是，WD能够有效降低激活量化误差，显著提高模型性能同时保持效率。

Sep, 2024