Transformer 推理的零 - shot 动态量化

EMNLPNov, 2022

Transformer 推理的零 - shot 动态量化

Zero-Shot Dynamic Quantization for Transformer Inference

Yousef El-Kurdi, Jerry Quinn, Avirup Sil

TL;DR我们介绍了一种新的运行时方法，可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤，我们在几个 NLP 任务上的结果表明了这种技术的实用性。

Abstract

We introduce a novel run-time method for significantly reducing the accuracy loss associated with quantizing bert-like models to 8-bit integers

bert-like models quantization 8-bit integers nlp tasks run-time method

发现论文，激发创造

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

变形金刚模型全面实现 8 位整型推断

通过对 Transformer 模型进行整合，得到了一个 8 位整型 Inference 算法，其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明，与基准架构相比，该算法的性能基本一致且内存占用减少了近 4 倍。

Sep, 2020

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

FrameQuant: 柔性低位量化技术用于变换器

通过引入从谐波分析中借用的融合框架的概念，我们提出了一种简化方案来将基于 Transformer 的模型量化为仅使用两位（加一些开销），并只在准确性上稍有降低，通过实验证明，此方案对 Transformer 模型的量化几乎可以实现显著的效率提升。

Mar, 2024

面向设备的神经机器翻译的极低比特 Transformer 量化

本研究提出一种混合精度量化策略，将 Transformer 权重表示为极低位数（例如小于 3 位），该压缩策略使得在设备上实现高效的神经机器翻译变得可行，实现了模型大小 11.8 倍的减小，内存占用减少 8.3 倍，速度提高 3.5 倍，同时 BLEU 低于 - 0.5。

Sep, 2020

理解和克服高效 Transformer 量化的挑战

本文探讨了 Transformer 模型的量化问题，并给出了三种解决方法，其中一种基于 embedding group 的量化方法建立了新的量化模型，该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT，我们准确评估了这些方法的有效性，并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法，以实现更大的内存节省。

Sep, 2021

I-BERT：仅限整数的 BERT 量化

本研究提出了一种新的基于整数的 Transformer 模型量化方案 I-BERT，使用轻量级整数逼近方法进行端到端的 Bert 推理，无需浮点计算，相较于全精度基准实现在准确率上相当甚至略有提高，同时在 T4 GPU 系统上进行 8 位整数推理的速度比 32 位浮点推理快 2.4-4 倍。

Jan, 2021

语言任务后训练量化方法的实证评估

通过分别实验评估了三种量化方法（LQ，ACIQ 和 OCS）对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位，并在 GLUE 基准测试中保持 98％和 96％的性能，为资源受限环境中模型调整提供指导。

Oct, 2022

FP8-BERT：Transformer 的后训练量化

本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验，验证了 FP8 作为一种进行后训练量化的有效方式，能够在不显著损失精度的情况下提高准确性。

Dec, 2023

零样本对抗量化

本文提出了一个零样本敌对量化（ZAQ）框架，利用两级子空间分别描述数据分布的不同特征，通过生成对抗网络驱动生成器合成出优化量化模型的多样性数据示例，实现对全精度模型到其量化模型的有效差异估计和知识转移。在三个基本的视觉任务上进行了广泛实验，证实了 ZAQ 在零样本量化方面的卓越性，并验证了其主要组成部分的有效性。

Mar, 2021