量化生成模型的 Softmax 偏差校正

Sep, 2023

Softmax Bias Correction for Quantized Generative Models

Nilesh Prasad Pandey, Marios Fournarakis, Chirag Patel, Markus Nagel

TL;DR研究通过离线偏差校正技术改善了量化后的 softmax，在资源受限的边缘设备上推理能力得到了显著的准确性提升。

Abstract

post-training quantization (PTQ) is the go-to compression technique for large generative models, such as stable diffusion or large language models. PTQ methods commonly keep the softmax activation in higher preci

post-training quantization softmax sensitivity bias correction technique compression technique quantizability

发现论文，激发创造

SmoothQuant：大型语言模型后训练量化的准确高效算法

SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案，用于大型语言模型（LLMs），通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度，可以实现 LLMs 的 8 位权重和激活（W8A8）量化，同时提高硬件效率，以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速，是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。

Nov, 2022

文本到图像扩散模型的渐进校准和激活松弛的后训练量化

我们提出了一种新的文本到图像扩散模型的后训练量化方法 PCR（渐进校准和放松），它包括了一种渐进校准策略，考虑了时间步长上的积累量化误差，以及一种激活放松策略，在性能提升方面几乎没有成本。另外，我们展示了文本到图像扩散模型量化的先前度量不准确的问题，并提出了一种新的 QDiffBench 基准，利用相同领域的数据进行更准确的评估。此外，QDiffBench 还考虑了量化模型在校准数据集之外的泛化性能。对 Stable Diffusion 和 Stable Diffusion XL 的广泛实验证明了我们的方法和基准的优越性。此外，我们是首次在保持性能的同时实现了 Stable Diffusion XL 的量化。

Nov, 2023

减小量化输出误差的偏差补偿

通过偏置补偿方法，本文提出了一种最小化输出误差的超低精度量化方法，无需模型微调，能够显著降低量化输出误差，并增强模型任务性能。

Apr, 2024

使用偏差来对抗量化偏差

本文探讨了移动设备上深度神经网络低精度表示的问题，提出了一个简单的方法通过在通道的参数中添加一个常数来解决量化引起的移位问题，从而实现了对 MobileNet 架构的优化。

Jun, 2019

扩散模型的训练后量化

本文介绍了如何加速去噪扩散生成模型的生成过程，通过对去噪网络进行压缩，在不进行重新训练的情况下，将完全精度的 DM 量化为 8 位模型，并可在其他快速采样方法上使用。

Nov, 2022

大型语言模型的后训练量化综合研究

通过数万次的零 - shot 实验，我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究，发现细粒度量化和 PTQ 方法是获得良好准确性所必需的，并且粗粒度量化的高比特位（例如，5 比特）比非常细粒度量化的低比特位（例如，4 比特）更强大。

Mar, 2023

基于梯度的训练后量化：对现状的挑战

量化方法在深度神经网络的高效部署中变得至关重要，深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法（GPTQ），证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性，并提出了设计更高效、可扩展的 GPTQ 方法的准则，最后还提出了一种基于重要性的混合精度技术，这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进，为设计可扩展且有效的量化方法开辟了新的可能。

Aug, 2023

RepQuant: 基于尺度重参数化的大型 Transformer 模型准确的后训练量化

提出了一种新型的后训练量化框架 RepQuant，通过量化推理解耦合范式，采用复杂的量化器进行量化过程，采用简化的量化器进行推理过程，同时将量化标度重新参数化，以确保准确的量化和高效的推理，并通过集成量化权重重构进一步提高性能限制，经过广泛的实验验证在不同大规模变压器变体上在视觉、语言和多模态转换任务中取得了显著的性能优势。

Feb, 2024

MixDQ: 高效节省内存的几步文本到图像扩散模型与度量分离混合精度量化

通过开发一种混合精度量化框架 MixDQ，我们针对强敏感度文本嵌入进行专门的 BOS 感知量化方法设计，通过度量解耦灵敏度分析来衡量每一层的敏感度，最后通过基于整数规划的方法进行位宽分配，与现有的量化方法相比，MixDQ 在保持 W8A8 品质的同时，实现了模型大小和内存成本的 3-4 倍减少，和 1.45 倍的延迟加速。

May, 2024

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024