高质量扩散模型的低比特浮点量化
本研究提出了一种用于量化噪声和扩散扰动噪声的统一方法,并使用所提出的混合精度方案,校准降噪方差表并选取每个降噪步骤的最佳位宽,显著提高了量化后扩散模型的样本质量且减少了操作次数。
May, 2023
提出了一种数据自由且参数高效的优化方法 EfficientDM,它通过引入量化感知的低秩适配器 QALoRA 来实现 QAT 级别的性能与 PTQ 的效率相似,从而优化低位扩散模型的性能,并且在时间和数据效率方面显著超过之前基于 PTQ 的扩散模型。
Oct, 2023
我们提出了一种新的文本到图像扩散模型的后训练量化方法PCR(渐进校准和放松),它包括了一种渐进校准策略,考虑了时间步长上的积累量化误差,以及一种激活放松策略,在性能提升方面几乎没有成本。另外,我们展示了文本到图像扩散模型量化的先前度量不准确的问题,并提出了一种新的QDiffBench基准,利用相同领域的数据进行更准确的评估。此外,QDiffBench还考虑了量化模型在校准数据集之外的泛化性能。对Stable Diffusion和Stable Diffusion XL的广泛实验证明了我们的方法和基准的优越性。此外,我们是首次在保持性能的同时实现了Stable Diffusion XL的量化。
Nov, 2023
本研究提出了BinaryDM,一种新颖的准确的量化感知训练方法,以将扩散模型的权重推向1位极限。使用Learnable Multi-basis Binarizer (LMB)来恢复二元化扩散模型生成的表示,并使用Low-rank Representation Mimicking (LRM)来提高二元化感知优化。通过渐进的初始化策略训练扩散模型,可以避免收敛困难。全面的实验证明,与超低位宽下的DM的SOTA量化方法相比,BinaryDM在精度和效率上都取得了显著的改进。作为扩散模型的第一种二元化方法,BinaryDM在具有1位权重和4位激活的情况下可实现16.0倍的FLOPs和27.1倍的存储节省,展示了其在资源有限场景中的巨大优势和潜力。
Apr, 2024
Diffusion Transformers (DiTs) are improved by Hybrid Floating-point Quantization (HQ-DiT), a post-training quantization method utilizing 4-bit floating-point precision on both weights and activations, resulting in low-precision quantization with minimal impact on performance.
May, 2024
通过开发一种新的权重量化方法,将稳定扩散 v1.5 的 UNet 模型量化为 1.99 位,实现模型尺寸减小7.9倍,同时展现更好的生成质量。
Jun, 2024
本研究解决了扩散模型在低比特量化中准确性与效率难以兼得的问题。作者提出了一种新颖的量化框架DilateQuant,利用未饱和的通道权重通过权重扩展(WD)来缩小激活范围,从而简化激活量化,并使用时间并行量化器(TPQ)和块级知识蒸馏(BKD)进一步提升性能。研究的关键发现是,WD能够有效降低激活量化误差,显著提高模型性能同时保持效率。
Sep, 2024