TVM 中的量化分析

Aug, 2023

Analyzing Quantization in TVM

Mingfei Guo

TL;DR通过分析性能问题并解决图构建中的错误，我们成功改进了量化，并分析多种优化策略，实现了与 TVM 编译基准相比分别达到计算密集任务 163.88% 和内存密集任务 194.98% 的推理时间改进。

Abstract

There has been many papers in academic literature on quantizing weight tensors in deep learning models to reduce inference latency and memory footprint. tvm also has the ability to quantize weights and support low-bit computations. Although →

quantization tvm performance optimization inference time

发现论文，激发创造

深度卷积网络的量化优化：一篇白皮书

本文概述了卷积神经网络量化技术，研究发现通过对权重和激活进行逐通道和逐层量化，即使在不支持 8 位运算的情况下，将权重量化为 8 位可以将模型大小降低 4 倍，并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试，并观察到相比于 CPU 上的浮点运算，量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具，并回顾了用于量化训练的最佳实践。作者建议，对于硬件加速和内核优化，应将逐通道量化的权重和逐层量化的激活作为首选量化方案，并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。

Jun, 2018

针对 MobileNet 的 Subtensor 量化

本文研究深度神经网络量化的问题，针对不同的架构提出了一些不同的替代方案，并在 ImageNet 数据集上进行了图像分类实验，结果表明后量化准确率与浮点数版本在 0.7％以内。

Nov, 2020

三值量化：一项调查

本研究综述了深度神经网络模型压缩方法中的一种，三值量化。研究回顾了三值量化的发展历程，并从投影函数和优化方法的角度研究了现有的三值量化方法之间的关系。

Mar, 2023

深度学习推理的整数量化：原理与实证评估

本文介绍了量化技术如何减小深度神经网络的规模，提高推理延迟和吞吐量，并评估它们在各种应用领域的不同神经网络模型上的选择，包括视觉、语音和语言等方面，并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时，还提供了一种 8 位量化工作流，能够在所有研究的网络上保持 1% 的浮点基线精度，包括更难量化的模型，如 MobileNets 和 BERT-large。

Apr, 2020

神经网络的训练与推理的价值感知量化

提出了一种新的价值感知量化方法，通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少 ResNet-152 和 Inception-v3 的激活器内存成本，并能实现 1％以下的 top-1 精度下降。

Apr, 2018

神经网络的低位量化以提高推理效率

本文提出了一种在有限硬件资源上实现预训练模型的 4 位整数（INT4）量化的优化方法，将线性量化任务形式化为最小均方误差（MMSE）问题，并对网络的每一层进行限制 MSE 问题的优化以及多个量化张量的硬件感知分区，除少量精度降低外，在多种网络架构上实现最先进的结果。

Feb, 2019

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

FlattenQuant: 通过 Per-tensor 量化来突破大型语言模型的推断计算限制

使用 FlattenQuant 方法在大型语言模型中实现低比特量化，通过将张量中的大通道展平以显著减少张量的最大值，本方法能够直接使用 4 位来实现 LLMs 中线性层计算的 48.29%，并使用 8 位来处理其余层，从而实现高达 2 倍的速度提升和 2.3 倍的内存减少，而准确度损失微不足道。

Feb, 2024

HAWQV3：二元神经网络量化

HAWQV3 提出了一种新型的混合精度整数量化框架，通过纯整数运算、硬件感知混合精度量化和直接硬件部署方法，实现了模型压缩和量化加速，其中 INT8 量化的准确率比之前的整数方法提高了 2.68％，同时混合精度的 INT4/8 量化可以将 INT8 的延迟降低 23％且仍能保持 76.73％的准确率。

Nov, 2020

Transformer 神经机器翻译模型的高效 8 位量化

本研究尝试利用 INT8/VNNI 指令量化 Transformer 模型，提高推理性能，同时保持不到 0.5% 的准确度下降。研究者在 TensorFlow 中提出了一种新的量化技术，并采用了一种并行处理技术，优化后的结果比最佳 FP32 性能提高了 1.5 倍，讨论了量化深度学习的机会和挑战，并建立了在 Intel CPU 上高效运行推理的最佳实践。

Jun, 2019