使用四位整数训练变压器

Jun, 2023

Training Transformers with 4-bit Integers

Haocheng Xi, Changhao Li, Jianfei Chen, Jun Zhu

TL;DR本文提出了一种使用 INT4 算法进行 transformer 训练的方法，以实现低精度的前向和后向传播，并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度，从而实现在当前型号 GPU 上完成快速的模型训练。

Abstract

quantizing the activation, weight, and gradient to 4-bit is promising to accelerate neural network training. However, existing 4-bit training methods require custom numerical formats which are not supported by co

quantizing 4-bit training methods transformers int4 arithmetic outliers

发现论文，激发创造

LLM-FP4: 4 位浮点数量化变压器

我们提出了 LLM-FP4，在训练后将大型语言模型（LLM）的权重和激活量化为 4 位浮点数值。

Oct, 2023

理解 Transformer 模型的 INT4 量化：延迟加速，可组合性和故障案例

本文研究了使用 INT4 量化技术来加速 transformer-based 语言模型的推理效率，结果显示对于编码器和编码器 - 解码器模型来说，使用 INT4 可以提高推理性能而不引起明显精度下降，但对于解码器模型来说精度有所下降；同时提供了针对压缩技术，如剪枝和层压缩的 INT4 兼容性研究，并通过高度优化的 INT4 推理管道，将 SOTA BERT INT8 性能提高了 1.7 倍。

Jan, 2023

面向设备的神经机器翻译的极低比特 Transformer 量化

本研究提出一种混合精度量化策略，将 Transformer 权重表示为极低位数（例如小于 3 位），该压缩策略使得在设备上实现高效的神经机器翻译变得可行，实现了模型大小 11.8 倍的减小，内存占用减少 8.3 倍，速度提高 3.5 倍，同时 BLEU 低于 - 0.5。

Sep, 2020

FPTQ：大型语言模型的细粒度后训练量化

本研究提出了一种新的基于 W4A8 的后训练量化方法，结合了现有的两种技术的优势，实现了 4 位权重量化和 8 位矩阵计算加速，在多个标准基准测试中获得最新的 W4A8 量化性能，为大型语言模型的实际应用提供了可能。

Aug, 2023

对数无偏量化：深度学习中简单的 4 位训练

本篇论文讨论了深度神经网络量化的训练过程，提出了一种对称、无偏、对数化的量化方法，能够达到新的四位量化水平，有效地减少了量化过程的计算开销，同时在 ResNet50 on ImageNet 中实现了 1.1% 的降低率。

Dec, 2021

变形金刚模型全面实现 8 位整型推断

通过对 Transformer 模型进行整合，得到了一个 8 位整型 Inference 算法，其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明，与基准架构相比，该算法的性能基本一致且内存占用减少了近 4 倍。

Sep, 2020

FrameQuant: 柔性低位量化技术用于变换器

通过引入从谐波分析中借用的融合框架的概念，我们提出了一种简化方案来将基于 Transformer 的模型量化为仅使用两位（加一些开销），并只在准确性上稍有降低，通过实验证明，此方案对 Transformer 模型的量化几乎可以实现显著的效率提升。

Mar, 2024

通过端到端 4 位量化加速递归神经网络转录器的推断和语言模型融合

本研究探讨了量化技术对于循环神经网络传输器（RNN-T）推论过程的加速作用，通过量化训练（QAT）重新训练全模型，应用自定义的量化方案并使用大型 beam widths 进行假设搜索，实现了 RNN-T 的端到端量化，并取得了较好的性能以及与浮点精度相比 7.6 倍的压缩比。

Jun, 2022

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

Transformer 神经机器翻译模型的高效 8 位量化

本研究尝试利用 INT8/VNNI 指令量化 Transformer 模型，提高推理性能，同时保持不到 0.5% 的准确度下降。研究者在 TensorFlow 中提出了一种新的量化技术，并采用了一种并行处理技术，优化后的结果比最佳 FP32 性能提高了 1.5 倍，讨论了量化深度学习的机会和挑战，并建立了在 Intel CPU 上高效运行推理的最佳实践。

Jun, 2019