BinaryDM: 混合扩散模型的准确二值化

Apr, 2024

BinaryDM: 混合扩散模型的准确二值化

BinaryDM: Towards Accurate Binarization of Diffusion Model

Xingyu Zheng, Haotong Qin, Xudong Ma, Mingyuan Zhang, Haojie Hao...

TL;DR本研究提出了 BinaryDM，一种新颖的准确的量化感知训练方法，以将扩散模型的权重推向 1 位极限。使用 Learnable Multi-basis Binarizer (LMB) 来恢复二元化扩散模型生成的表示，并使用 Low-rank Representation Mimicking (LRM) 来提高二元化感知优化。通过渐进的初始化策略训练扩散模型，可以避免收敛困难。全面的实验证明，与超低位宽下的 DM 的 SOTA 量化方法相比，BinaryDM 在精度和效率上都取得了显著的改进。作为扩散模型的第一种二元化方法，BinaryDM 在具有 1 位权重和 4 位激活的情况下可实现 16.0 倍的 FLOPs 和 27.1 倍的存储节省，展示了其在资源有限场景中的巨大优势和潜力。

Abstract

With the advancement of diffusion models (DMs) and the substantially increased computational requirements, quantization emerges as a practical solution to obtain compact and efficient low-bit DMs. However, the hi

diffusion models quantization binarydm binarization method ultra-low bit-widths

发现论文，激发创造

DB-LLM：用於高效 LLMs 的準確雙二元化

该研究提出了一种新颖的双二值化方法（DB-LLM），用于大型语言模型（LLMs）的超低位量化，以提高计算效率，并通过偏差感知蒸馏（DAD）方法减少预测失真，实现了超低位量化时的显著准确性提升和计算效率降低。

Feb, 2024

EfficientDM: 高效的低位扩散模型量化感知微调

提出了一种数据自由且参数高效的优化方法 EfficientDM，它通过引入量化感知的低秩适配器 QALoRA 来实现 QAT 级别的性能与 PTQ 的效率相似，从而优化低位扩散模型的性能，并且在时间和数据效率方面显著超过之前基于 PTQ 的扩散模型。

Oct, 2023

图像超分辨率的二值扩散模型

本文介绍了一种针对图像超分辨率的新型二值扩散模型 ——BI-DiffSR，该模型利用改进的 UNet 架构进行二值化，并设计了一系列新的技术来增强模型性能和灵活性。实验结果表明，BI-DiffSR 在超分辨率任务中优于现有的二值化方法。

Jun, 2024

QuEST: 低比特扩散模型量化的高效选择性微调

通过优化活化分布和关键量化层，本文解决了低位量化对扩散模型性能的影响，并在各种位宽设置下实现了最先进的高分辨率图像生成。

Feb, 2024

量化扩散变压器分析

通过分析扩散变换器中激活和权重量化的挑战，我们提出了一种单步采样校准激活和适应分组量化权重的低比特量化方法，从而在无需任何优化的情况下在纯变换器结构上实现了高效的后量化，我们通过初步的条件图像生成实验展示了所提出方法的效率和有效性。

Jun, 2024

BiLLM: 提高 LLM 后训练量化的极限

BiLLM 是一种创新的 1 位后训练量化方案，定制了预训练的大型语言模型，实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理，超过了 LLM 的 SOTA 量化方法。此外，BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程，显示了令人满意的时间效率。

Feb, 2024

潜在扩散模型的高效量化策略

本研究提出了一种高效的量化策略，利用信噪比（SQNR）作为评估指标，将相对量化噪声视为噪声，识别模型中的敏感部分，并提出了既包括全局策略又包括局部策略的高效量化方法。实验结果表明，实施全局和局部策略能够高效地量化并有效地压缩 LDMs。

Dec, 2023

扩散模型的训练后量化

本文介绍了如何加速去噪扩散生成模型的生成过程，通过对去噪网络进行压缩，在不进行重新训练的情况下，将完全精度的 DM 量化为 8 位模型，并可在其他快速采样方法上使用。

Nov, 2022

面向分布的信息保留的精确二值神经网络

本文介绍了一种名为 DIR-Net 的神经网络二值化方法，通过改进内部传播和引入外部表示来保留神经网络信息；采用信息最大化二值化（IMB）、分布敏感二段估计器（DTE）和表示对齐二值化感知蒸馏（RBD）等三项技术，该方法在 ResNet、VGG、EfficientNet、DARTS 和 MobileNet 等主流紧凑体系结构下实验表现优异，可在实际资源受限设备上实现存储节省和加速优化。

Sep, 2021

二值化神经机器翻译

本文提出了一种新的二值化技术，基于一位权重和激活函数的 Transformer 应用于机器翻译，实验证明其可以达到与浮点型 Transformer 相同的质量，同时大小只有其 16 倍，并通过额外的 LayerNorms 和残差连接改进了二值化的质量。此外，作者在生产规模的翻译数据集上进行了一项标尺研究，表明一位权重 Transformer 在域内和域外环境下均具有可扩展性和良好的泛化效果。

Feb, 2023