使用四位整数训练变压器
本文研究了使用 INT4 量化技术来加速 transformer-based 语言模型的推理效率,结果显示对于编码器和编码器 - 解码器模型来说,使用 INT4 可以提高推理性能而不引起明显精度下降,但对于解码器模型来说精度有所下降;同时提供了针对压缩技术,如剪枝和层压缩的 INT4 兼容性研究,并通过高度优化的 INT4 推理管道,将 SOTA BERT INT8 性能提高了 1.7 倍。
Jan, 2023
本研究提出一种混合精度量化策略,将 Transformer 权重表示为极低位数(例如小于 3 位),该压缩策略使得在设备上实现高效的神经机器翻译变得可行,实现了模型大小 11.8 倍的减小,内存占用减少 8.3 倍,速度提高 3.5 倍,同时 BLEU 低于 - 0.5。
Sep, 2020
本研究提出了一种新的基于 W4A8 的后训练量化方法,结合了现有的两种技术的优势,实现了 4 位权重量化和 8 位矩阵计算加速,在多个标准基准测试中获得最新的 W4A8 量化性能,为大型语言模型的实际应用提供了可能。
Aug, 2023
本篇论文讨论了深度神经网络量化的训练过程,提出了一种对称、无偏、对数化的量化方法,能够达到新的四位量化水平,有效地减少了量化过程的计算开销,同时在 ResNet50 on ImageNet 中实现了 1.1% 的降低率。
Dec, 2021
通过对 Transformer 模型进行整合,得到了一个 8 位整型 Inference 算法,其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明,与基准架构相比,该算法的性能基本一致且内存占用减少了近 4 倍。
Sep, 2020
通过引入从谐波分析中借用的融合框架的概念,我们提出了一种简化方案来将基于 Transformer 的模型量化为仅使用两位(加一些开销),并只在准确性上稍有降低,通过实验证明,此方案对 Transformer 模型的量化几乎可以实现显著的效率提升。
Mar, 2024
本研究探讨了量化技术对于循环神经网络传输器(RNN-T)推论过程的加速作用,通过量化训练(QAT)重新训练全模型,应用自定义的量化方案并使用大型 beam widths 进行假设搜索,实现了 RNN-T 的端到端量化,并取得了较好的性能以及与浮点精度相比 7.6 倍的压缩比。
Jun, 2022
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022
本研究尝试利用 INT8/VNNI 指令量化 Transformer 模型,提高推理性能,同时保持不到 0.5% 的准确度下降。研究者在 TensorFlow 中提出了一种新的量化技术,并采用了一种并行处理技术,优化后的结果比最佳 FP32 性能提高了 1.5 倍,讨论了量化深度学习的机会和挑战,并建立了在 Intel CPU 上高效运行推理的最佳实践。
Jun, 2019