BitsFusion:扩散模型的 1.99 位权重量化
利用扩散模型在图像压缩领域具有潜力,能够在极低码率下产生逼真且详细的重建结果。本研究提出了一种将扩散用于去除量化误差,以恢复传输图像潜在信息的去噪方法,相较于之前的方法,我们的方案只需要进行不到 10% 的扩散生成过程,并且无需对扩散模型进行架构更改,能够有效利用基础模型作为强大的先验,并在定量写实度指标上优于之前的方法,同时经验证明我们的重建结果在质量上也得到了最终用户的认可,并且即使其他方法使用两倍的比特率,我们的方案依然具备优势。
Apr, 2024
提出了一种数据自由且参数高效的优化方法 EfficientDM,它通过引入量化感知的低秩适配器 QALoRA 来实现 QAT 级别的性能与 PTQ 的效率相似,从而优化低位扩散模型的性能,并且在时间和数据效率方面显著超过之前基于 PTQ 的扩散模型。
Oct, 2023
本文提出了 DiffQ,一种不需要渐近梯度估计的可微方法,用于在训练期间对模型参数进行量化。DiffQ 在多个基准测试和体系结构上进行了实验验证,对于图像分类、语言建模和音频源分离等任务,能够优化每个权重或一组权重使用的位数,并在模型精度损失 0.3% 的情况下将 12 层的变压器模型压缩了超过 8 倍 。
Apr, 2021
本研究提出了一种用于量化噪声和扩散扰动噪声的统一方法,并使用所提出的混合精度方案,校准降噪方差表并选取每个降噪步骤的最佳位宽,显著提高了量化后扩散模型的样本质量且减少了操作次数。
May, 2023
通过开发一种混合精度量化框架 MixDQ,我们针对强敏感度文本嵌入进行专门的 BOS 感知量化方法设计,通过度量解耦灵敏度分析来衡量每一层的敏感度,最后通过基于整数规划的方法进行位宽分配,与现有的量化方法相比,MixDQ 在保持 W8A8 品质的同时,实现了模型大小和内存成本的 3-4 倍减少,和 1.45 倍的延迟加速。
May, 2024
本文针对大规模的十亿参数扩散模型,探索了细调量化扩散模型的领域,并提出了两种策略以增强个性化、保持提示保真度和图像质量,显著超越基线模型的质量和数量性能。
Jan, 2024
Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法,用于处理 Diffusion Transformer(DiT)模型中的权重和激活的巨大变化,以实现高效、高质量的量化和图像生成。
Jun, 2024
Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.
Jun, 2024