QuantTune: 自适应异常值驱动的模型量化优化

Mar, 2024

QuantTune: 自适应异常值驱动的模型量化优化

QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning

Jiun-Man Chen, Yu-Hsuan Chao, Yu-Jie Wang, Ming-Der Shieh, Chih-Chung Hsu...

TL;DR我们的研究着重于发现 Transformer-based 模型在后训练线性量化过程中准确性下降的潜在原因，并提出了一种适用于量化的微调方法 QuantTune。该方法通过根据异常激活的偏差调整权重，有效控制了有问题激活的动态范围，从而在几种 Transformer-based 模型中实现了显著的后训练量化的改进。

Abstract

transformer-based models have gained widespread popularity in both the computer vision (CV) and natural language processing (NLP) fields. However, significant challenges arise during post-training linear quantization

transformer-based models post-training linear quantization quantization-friendly fine-tuning method outlier activations post-training quantization

发现论文，激发创造

OutlierTune: 大语言模型的高效通道量化

OutlierTune 是一种针对 LLMs 激活的高效后训练量化方法，它通过预执行去量化和对称化两个组件，解决了大规模语言模型的激活量化准确性和硬件效率问题。

Jun, 2024

NoisyQuant：针对视觉 Transformer 的噪声偏置增强后训练激活量化

NoisyQuant 是一种用于视觉变换器 post-training activation 量化性能增强的量化器不可知增强方法。它的理论是，在给定量化器的情况下，添加一个固定的均匀噪声偏差可以在可证明的条件下显着降低量化误差。基于这个理论，NoisyQuant 成功地通过添加增量噪声偏差来改变重尾激活分布并适应给定的量化器。大量实验展示了 NoisyQuant 在使视觉变换器进行 post-training quantization 时可以大幅度提高性能，而且计算成本较小。

Nov, 2022

PTQ4ViT：基于双等距量化的视觉 Transformer 后训练量化框架

本文提出了双均匀量化方法和用 Hessian 指导的指标方法来优化视觉转换器上量化的准确度，提出了一个高效的框架 PTQ4ViT，实验证明量化视觉转换器在 ImageNet 分类任务上能够实现接近无损的预测准确度（8 位量化的准确度降低小于 0.5%）。

Nov, 2021

AlphaTuning: 大规模预训练语言模型的量化感知参数高效适应

本研究旨在将后训练量化与仅对定向任务的一些部分进行量化的精细调整相结合，以使模型更加快速且效率更高，我们提出了 AlphaTuning 控制模型的大小，通过二进制编码量化、调整二进制参数和针对下游任务进行唯一的倍数调整，证明我们的方法在 11 种下游任务上使用 4 位或更高的量化精度时，仅使用总参数数量的 1/10 进行细调。

Oct, 2022

视觉 Transformer 的后训练量化

本文介绍了一种有效的后训练量化算法，以降低视觉变换器的内存存储和计算成本，并在多个基准模型和数据集上证明了所提出的方法的有效性，在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29％ top-1 精度。

Jun, 2021

理解和克服高效 Transformer 量化的挑战

本文探讨了 Transformer 模型的量化问题，并给出了三种解决方法，其中一种基于 embedding group 的量化方法建立了新的量化模型，该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT，我们准确评估了这些方法的有效性，并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法，以实现更大的内存节省。

Sep, 2021

Transformer 推理的零 - shot 动态量化

我们介绍了一种新的运行时方法，可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤，我们在几个 NLP 任务上的结果表明了这种技术的实用性。

Nov, 2022

PV-Tuning：用于极高 LLM 压缩的超越直通估计的方法

该研究提出了 PV-Tuning，一个对于极端压缩语言模型的量化感知微调策略的表示无关框架，通过在实践中应用于 1-2 位矢量量化，PV-Tuning 在高性能模型如 Llama 和 Mistral 中优于先前的技术，实现了 Llama 2 系列模型每个参数 2 位的帕累托最优量化。

May, 2024

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

Q-DiT：扩散变压器的准确后训练量化

Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法，用于处理 Diffusion Transformer（DiT）模型中的权重和激活的巨大变化，以实现高效、高质量的量化和图像生成。

Jun, 2024