通过端到端 4 位量化加速递归神经网络转录器的推断和语言模型融合

Jun, 2022

通过端到端 4 位量化加速递归神经网络转录器的推断和语言模型融合

Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization

PDF

Andrea Fasoli, Chia-Yu Chen, Mauricio Serrano, Swagath Venkataramani, George Saon...

TL;DR本研究探讨了量化技术对于循环神经网络传输器（RNN-T）推论过程的加速作用，通过量化训练（QAT）重新训练全模型，应用自定义的量化方案并使用大型 beam widths 进行假设搜索，实现了 RNN-T 的端到端量化，并取得了较好的性能以及与浮点精度相比 7.6 倍的压缩比。

Abstract

We report on aggressive quantization strategies that greatly accelerate inference of Recurrent Neural Network Transducers (rnn-t). We use

quantization rnn-t language model computational overhead inference

发现论文，激发创造

理解 Transformer 模型的 INT4 量化：延迟加速，可组合性和故障案例

本文研究了使用 INT4 量化技术来加速 transformer-based 语言模型的推理效率，结果显示对于编码器和编码器 - 解码器模型来说，使用 INT4 可以提高推理性能而不引起明显精度下降，但对于解码器模型来说精度有所下降；同时提供了针对压缩技术，如剪枝和层压缩的 INT4 兼容性研究，并通过高度优化的 INT4 推理管道，将 SOTA BERT INT8 性能提高了 1.7 倍。

Jan, 2023

使用四位整数训练变压器

本文提出了一种使用 INT4 算法进行 transformer 训练的方法，以实现低精度的前向和后向传播，并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度，从而实现在当前型号 GPU 上完成快速的模型训练。

Jun, 2023

QQQ：大型语言模型的高质量四位量化

QQQ 是一种基于四位权重和八位激活的优质量化方法，通过自适应平滑和基于 Hessian 的补偿显著提高了量化模型的性能，并通过精心设计的 W4A8 GEMM 核心增加了推理速度。与现有的最新 LLM 量化方法相当的性能，显著加速推理，与 FP16、W8A8 和 W4A16 相比，速度提升分别达到了 2.24 倍、2.10 倍和 1.25 倍。

Jun, 2024

8 位神经网络加速器的小于 8 位量化感知训练，用于设备上的语音识别

本文提出了一种 8 位神经网络加速器的新型子 8 位量化感知训练（S8BQAT）方案，利用 Lloyd-Max 压缩理论的灵感，通过适当的实用化来降低计算开销，并应用于递归神经网络传输者 (RNN-T) 结构的语音识别任务中，进一步优化模型参数大小，相对减少误差率 4%-16%，提高计算速度 5%。

Jun, 2022

基于转录器的语音识别加速训练

本文提出一种在训练阶段复制神经网络加速器 (NNA) 运算符以解决低精度推理引起的性能损失，以此减少用户感知的延迟，并在 270K 小时的英语数据上显示了 5-7％的引擎延迟的改善，节省了高达 10％的句子错误率的降低。

May, 2023

迈向端到端基于生成型大语言模型的 4 位推理

大多数大型生成模型的推理计算可以通过将权重和激活值均转换为 4 位来加速计算，同时保持良好的准确性；我们通过名为 QUIK 的混合量化策略实现这一目标，该策略将大多数权重和激活值压缩为 4 位，将一些异常值保留在较高精度；关键是，我们的方案专注于计算效率，提供高效的逐层 GPU 内核，相对于 FP16 执行，端到端的吞吐量可提高最多 3.1 倍。

Oct, 2023

循环神经网络的交替多比特量化

本文通过量化神经网络的权重和激活值为多个 {-1，+1} 的二进制编码来解决在性能有限的移动设备和高并发服务器上部署神经网络时的问题，并在长短时记忆和门控循环单元等领域进行了测试，结果显示仅失去一定的准确性，我们可以通过两位量化实现约 16 倍的内存节省和约 6 倍的实际推理加速，在三位量化下，我们几乎不会失去准确性，甚至可以超越原始模型，同时节省约 10.5 倍的内存和约 3 倍的实际推理加速。

Feb, 2018

面向设备的神经机器翻译的极低比特 Transformer 量化

本研究提出一种混合精度量化策略，将 Transformer 权重表示为极低位数（例如小于 3 位），该压缩策略使得在设备上实现高效的神经机器翻译变得可行，实现了模型大小 11.8 倍的减小，内存占用减少 8.3 倍，速度提高 3.5 倍，同时 BLEU 低于 - 0.5。

Sep, 2020

LLM-FP4: 4 位浮点数量化变压器

我们提出了 LLM-FP4，在训练后将大型语言模型（LLM）的权重和激活量化为 4 位浮点数值。

Oct, 2023

Transformer 神经机器翻译模型的高效 8 位量化

本研究尝试利用 INT8/VNNI 指令量化 Transformer 模型，提高推理性能，同时保持不到 0.5% 的准确度下降。研究者在 TensorFlow 中提出了一种新的量化技术，并采用了一种并行处理技术，优化后的结果比最佳 FP32 性能提高了 1.5 倍，讨论了量化深度学习的机会和挑战，并建立了在 Intel CPU 上高效运行推理的最佳实践。

Jun, 2019