Q8BERT：量化 8 位 BERT

Oct, 2019

Q8BERT: Quantized 8Bit BERT

Ofir Zafrir, Guy Boudoukh, Peter Izsak, Moshe Wasserblat

TL;DR本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Abstract

Recently, pre-trained Transformer based language models such as BERT and GPT, have shown great improvement in many Natural Language Processing (NLP) tasks. However, these models contain a large amount of parameters. The emergence of even larger and more accurate models such as GPT2 and Megatron, suggest a trend of large pre-trained →

transformer models nlp tasks pre-trained models quantization-aware training inference speed

发现论文，激发创造

FP8-BERT：Transformer 的后训练量化

本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验，验证了 FP8 作为一种进行后训练量化的有效方式，能够在不显著损失精度的情况下提高准确性。

Dec, 2023

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

GPTQ: 针对生成式预训练变换器的准确后训练量化

本研究提出了 GPTQ 一种新的一次性量化方法，可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿，每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性，在单个 GPU 内执行 1750 亿参数模型，快于使用 FP16 格式的 GPU，且可提供 3.25 倍至 4.5 倍的推理加速度。

Oct, 2022

语言任务后训练量化方法的实证评估

通过分别实验评估了三种量化方法（LQ，ACIQ 和 OCS）对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位，并在 GLUE 基准测试中保持 98％和 96％的性能，为资源受限环境中模型调整提供指导。

Oct, 2022

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

Transformer 推理的零 - shot 动态量化

我们介绍了一种新的运行时方法，可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤，我们在几个 NLP 任务上的结果表明了这种技术的实用性。

Nov, 2022

基于 Transformer 的大规模模型压缩：以 BERT 为例的案例研究

本文总结了压缩预训练 Transformer 模型的研究进展，尤其关注流行的 BERT 模型的最佳压缩实践和方法，提出未来发展的方向，以达到轻量、高准确性和通用性的自然语言处理模型。

Feb, 2020

边缘设备上的量化 Transformer 语言模型实现

大规模基于 transformer 的模型如 BERT，可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式，用于声誉分析等任务，其性能较好且具有隐私保护特性。

Oct, 2023

I-BERT：仅限整数的 BERT 量化

本研究提出了一种新的基于整数的 Transformer 模型量化方案 I-BERT，使用轻量级整数逼近方法进行端到端的 Bert 推理，无需浮点计算，相较于全精度基准实现在准确率上相当甚至略有提高，同时在 T4 GPU 系统上进行 8 位整数推理的速度比 32 位浮点推理快 2.4-4 倍。

Jan, 2021