Q-DiT：扩散变压器的准确后训练量化

Jun, 2024

Q-DiT：扩散变压器的准确后训练量化

Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers

Lei Chen, Yuan Meng, Chen Tang, Xinzhu Ma, Jingyan Jiang...

TL;DRQ-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法，用于处理 Diffusion Transformer（DiT）模型中的权重和激活的巨大变化，以实现高效、高质量的量化和图像生成。

Abstract

Recent advancements in diffusion models, particularly the trend of architectural transformation from UNet-based Diffusion to Diffusion Transformer (dit), have significantly improved the quality and scalability of

diffusion models dit post-training quantization image synthesis q-dit

发现论文，激发创造

ViDiT-Q: 图像和视频生成的扩散变压器的高效准确量化

Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.

Jun, 2024

PTQ4DiT：扩散变压器的后训练量化

为了解决 Diffusion Transformers（DiTs）中特定的量化挑战，本文提出了一种特定的 Post-training Quantization（PTQ）方法，称为 PTQ4DiT。通过 Channel-wise Salience Balancing（CSB）和 Spearmen's ρ-guided Salience Calibration（SSC）来解决 DiTs 中存在的通道不平衡和时间变化的挑战，并通过离线重新参数化策略降低了计算成本，实现了对 DiTs 的有效量化到 8 位精度（W8A8），并首次实现了对 4 位权重精度（W4A8）的有效量化。

May, 2024

高效的 FP4 混合量化扩散变换器（HQ-DiT）

Diffusion Transformers (DiTs) are improved by Hybrid Floating-point Quantization (HQ-DiT), a post-training quantization method utilizing 4-bit floating-point precision on both weights and activations, resulting in low-precision quantization with minimal impact on performance.

May, 2024

TerDiT: 基于 Transformer 的三元扩散模型

我们提出了 TerDiT，一种针对具有 transformer 的三态扩散模型的量化感知训练（QAT）和有效部署方案，致力于探索大规模 DiT 模型的高效部署策略，展示了从头开始训练极低比特扩散变压器模型的可行性，同时保持与全精度模型相比有竞争力的图像生成能力。

May, 2024

PTQD：针对扩散模型的精确后训练量化

本研究提出了一种用于量化噪声和扩散扰动噪声的统一方法，并使用所提出的混合精度方案，校准降噪方差表并选取每个降噪步骤的最佳位宽，显著提高了量化后扩散模型的样本质量且减少了操作次数。

May, 2023

EfficientDM: 高效的低位扩散模型量化感知微调

提出了一种数据自由且参数高效的优化方法 EfficientDM，它通过引入量化感知的低秩适配器 QALoRA 来实现 QAT 级别的性能与 PTQ 的效率相似，从而优化低位扩散模型的性能，并且在时间和数据效率方面显著超过之前基于 PTQ 的扩散模型。

Oct, 2023

量化扩散变压器分析

通过分析扩散变换器中激活和权重量化的挑战，我们提出了一种单步采样校准激活和适应分组量化权重的低比特量化方法，从而在无需任何优化的情况下在纯变换器结构上实现了高效的后量化，我们通过初步的条件图像生成实验展示了所提出方法的效率和有效性。

Jun, 2024

扩散模型的训练后量化

本文介绍了如何加速去噪扩散生成模型的生成过程，通过对去噪网络进行压缩，在不进行重新训练的情况下，将完全精度的 DM 量化为 8 位模型，并可在其他快速采样方法上使用。

Nov, 2022

文本到图像扩散模型的渐进校准和激活松弛的后训练量化

我们提出了一种新的文本到图像扩散模型的后训练量化方法 PCR（渐进校准和放松），它包括了一种渐进校准策略，考虑了时间步长上的积累量化误差，以及一种激活放松策略，在性能提升方面几乎没有成本。另外，我们展示了文本到图像扩散模型量化的先前度量不准确的问题，并提出了一种新的 QDiffBench 基准，利用相同领域的数据进行更准确的评估。此外，QDiffBench 还考虑了量化模型在校准数据集之外的泛化性能。对 Stable Diffusion 和 Stable Diffusion XL 的广泛实验证明了我们的方法和基准的优越性。此外，我们是首次在保持性能的同时实现了 Stable Diffusion XL 的量化。

Nov, 2023

MixDQ: 高效节省内存的几步文本到图像扩散模型与度量分离混合精度量化

通过开发一种混合精度量化框架 MixDQ，我们针对强敏感度文本嵌入进行专门的 BOS 感知量化方法设计，通过度量解耦灵敏度分析来衡量每一层的敏感度，最后通过基于整数规划的方法进行位宽分配，与现有的量化方法相比，MixDQ 在保持 W8A8 品质的同时，实现了模型大小和内存成本的 3-4 倍减少，和 1.45 倍的延迟加速。

May, 2024