在 CPU 上的扩散模型的有效量化

Nov, 2023

Effective Quantization for Diffusion Models on CPUs

Hanwen Chang, Haihao Shen, Yiyang Cai, Xinyu Ye, Zhenzhong Xu...

TL;DR通过结合量化感知训练和蒸馏方法，我们提出了一种新的扩散模型量化方法，可以在维持高图像质量的同时，在 CPU 上展示出高效推断能力。

Abstract

diffusion models have gained popularity for generating images from textual descriptions. Nonetheless, the substantial need for computational resources continues to present a noteworthy challenge, contributing to time-consuming processes. →

diffusion models quantization image quality inference efficiency quantization-aware training

发现论文，激发创造

QuEST: 低比特扩散模型量化的高效选择性微调

通过优化活化分布和关键量化层，本文解决了低位量化对扩散模型性能的影响，并在各种位宽设置下实现了最先进的高分辨率图像生成。

Feb, 2024

扩散模型的时态动态量化

介绍了一种新的量化方法用于扩散模型，通过动态调整量化间隔来改善输出质量，并提出该方法在推理时没有计算开销和两种量化方法兼容，通过多种数据集的广泛实验证明了量化扩散模型在输出质量方面的显着改进。

Jun, 2023

PTQD：针对扩散模型的精确后训练量化

本研究提出了一种用于量化噪声和扩散扰动噪声的统一方法，并使用所提出的混合精度方案，校准降噪方差表并选取每个降噪步骤的最佳位宽，显著提高了量化后扩散模型的样本质量且减少了操作次数。

May, 2023

EfficientDM: 高效的低位扩散模型量化感知微调

提出了一种数据自由且参数高效的优化方法 EfficientDM，它通过引入量化感知的低秩适配器 QALoRA 来实现 QAT 级别的性能与 PTQ 的效率相似，从而优化低位扩散模型的性能，并且在时间和数据效率方面显著超过之前基于 PTQ 的扩散模型。

Oct, 2023

基于蒸馏和量化的模型压缩

本文提出了两种新的模型压缩方法：量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明，在资源受限的环境中，量化浅层神经网络可以达到与全精度模型相似的准确性水平，同时提供数量级压缩和推断加速。

Feb, 2018

量子去噪扩散模型

本研究探讨了量子机器学习和变分量子电路的整合，以增强扩散式图像生成模型的效力，并通过 MNIST 数字，Fashion MNIST 和 CIFAR-10 对两种量子扩散模型进行了基准测试，结果显示我们的模型在性能指标 FID、SSIM 和 PSNR 方面超越了传统模型。此外，我们还引入了一种一致性模型单一采样架构，将扩散过程合并为一步，实现了快速一步图像生成。

Jan, 2024

文本到图像扩散模型的渐进校准和激活松弛的后训练量化

我们提出了一种新的文本到图像扩散模型的后训练量化方法 PCR（渐进校准和放松），它包括了一种渐进校准策略，考虑了时间步长上的积累量化误差，以及一种激活放松策略，在性能提升方面几乎没有成本。另外，我们展示了文本到图像扩散模型量化的先前度量不准确的问题，并提出了一种新的 QDiffBench 基准，利用相同领域的数据进行更准确的评估。此外，QDiffBench 还考虑了量化模型在校准数据集之外的泛化性能。对 Stable Diffusion 和 Stable Diffusion XL 的广泛实验证明了我们的方法和基准的优越性。此外，我们是首次在保持性能的同时实现了 Stable Diffusion XL 的量化。

Nov, 2023

使用量化扩散模型进行内存高效个性化

本文针对大规模的十亿参数扩散模型，探索了细调量化扩散模型的领域，并提出了两种策略以增强个性化、保持提示保真度和图像质量，显著超越基线模型的质量和数量性能。

Jan, 2024

基于基础扩散模型的有损图像压缩

利用扩散模型在图像压缩领域具有潜力，能够在极低码率下产生逼真且详细的重建结果。本研究提出了一种将扩散用于去除量化误差，以恢复传输图像潜在信息的去噪方法，相较于之前的方法，我们的方案只需要进行不到 10% 的扩散生成过程，并且无需对扩散模型进行架构更改，能够有效利用基础模型作为强大的先验，并在定量写实度指标上优于之前的方法，同时经验证明我们的重建结果在质量上也得到了最终用户的认可，并且即使其他方法使用两倍的比特率，我们的方案依然具备优势。

Apr, 2024

MixDQ: 高效节省内存的几步文本到图像扩散模型与度量分离混合精度量化

通过开发一种混合精度量化框架 MixDQ，我们针对强敏感度文本嵌入进行专门的 BOS 感知量化方法设计，通过度量解耦灵敏度分析来衡量每一层的敏感度，最后通过基于整数规划的方法进行位宽分配，与现有的量化方法相比，MixDQ 在保持 W8A8 品质的同时，实现了模型大小和内存成本的 3-4 倍减少，和 1.45 倍的延迟加速。

May, 2024