Transformer 神经机器翻译模型的高效 8 位量化

Jun, 2019

Transformer 神经机器翻译模型的高效 8 位量化

Efficient 8-Bit Quantization of Transformer Neural Machine Language Translation Model

Aishwarya Bhandare, Vamsi Sripathi, Deepthi Karkada, Vivek Menon, Sun Choi...

TL;DR本研究尝试利用 INT8/VNNI 指令量化 Transformer 模型，提高推理性能，同时保持不到 0.5% 的准确度下降。研究者在 TensorFlow 中提出了一种新的量化技术，并采用了一种并行处理技术，优化后的结果比最佳 FP32 性能提高了 1.5 倍，讨论了量化深度学习的机会和挑战，并建立了在 Intel CPU 上高效运行推理的最佳实践。

Abstract

In this work, we quantize a trained transformer machine language translation model leveraging int8/vnni instructions in the latest Intel$^\circledR$ Xeon$^\circledR$ Cascade Lake processors to improve inference p

transformer machine language translation quantization int8/vnni tensorflow performance optimization

发现论文，激发创造

变形金刚模型全面实现 8 位整型推断

通过对 Transformer 模型进行整合，得到了一个 8 位整型 Inference 算法，其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明，与基准架构相比，该算法的性能基本一致且内存占用减少了近 4 倍。

Sep, 2020

面向设备的神经机器翻译的极低比特 Transformer 量化

本研究提出一种混合精度量化策略，将 Transformer 权重表示为极低位数（例如小于 3 位），该压缩策略使得在设备上实现高效的神经机器翻译变得可行，实现了模型大小 11.8 倍的减小，内存占用减少 8.3 倍，速度提高 3.5 倍，同时 BLEU 低于 - 0.5。

Sep, 2020

理解 Transformer 模型的 INT4 量化：延迟加速，可组合性和故障案例

本文研究了使用 INT4 量化技术来加速 transformer-based 语言模型的推理效率，结果显示对于编码器和编码器 - 解码器模型来说，使用 INT4 可以提高推理性能而不引起明显精度下降，但对于解码器模型来说精度有所下降；同时提供了针对压缩技术，如剪枝和层压缩的 INT4 兼容性研究，并通过高度优化的 INT4 推理管道，将 SOTA BERT INT8 性能提高了 1.7 倍。

Jan, 2023

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

FP8-BERT：Transformer 的后训练量化

本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验，验证了 FP8 作为一种进行后训练量化的有效方式，能够在不显著损失精度的情况下提高准确性。

Dec, 2023

使用四位整数训练变压器

本文提出了一种使用 INT4 算法进行 transformer 训练的方法，以实现低精度的前向和后向传播，并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度，从而实现在当前型号 GPU 上完成快速的模型训练。

Jun, 2023

八省份: 8 位神经机器翻译

在这篇论文中，我们展示了使用 8 位量化对使用 32 位浮点值进行训练的模型进行翻译的有效性，结果表明 8 位翻译在速度上有不可忽略的影响，而在准确性和充分性上没有退化。

Apr, 2018

Jetfire：使用 INT8 数据流和每块量化实现高效准确的 Transformer 预训练

Jetfire 提出了一种高效准确的 INT8 预训练方法，通过 INT8 数据流优化内存访问和每个块的量化方法来实现与 FP16 基线相当的准确性，且相对于 FP16 基线，提供了 1.42 倍的训练加速和 1.49 倍的内存减少。

Mar, 2024

Transformer 推理的零 - shot 动态量化

我们介绍了一种新的运行时方法，可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤，我们在几个 NLP 任务上的结果表明了这种技术的实用性。

Nov, 2022

LLM.int8 (): 用于大规模 Transformers 的 8 位矩阵乘法

通过 Int8 矩阵乘法的程序，我们可以在保持全精度性能的前提下将推理所需的内存削减一半，使用 LLM.int8 ()，我们可以展示出具有高达 175B 参数的 LLMs 性能无损推理的可能性，这一结果使得该模型更加易于使用并且可以在单个服务器上运行。

Aug, 2022