深度声学模型的高效表示与执行

MMJul, 2016

On the efficient representation and execution of deep acoustic models

Raziel Alvarez, Rohit Prabhavalkar, Anton Bakhtin

TL;DR本文提出了一种简单而高效的量化方案，将神经网络的参数分辨率从 32 位浮点值减少到 8 位整数值，从而产生了显著的内存节省和可以使用优化后的硬件指令进行整数算术操作，从而显着降低了推理成本，并通过提出的 “量化感知” 训练过程进行网络训练，发现可以恢复大部分量化引入的精度损失，并验证了该技术在一个开放式大词汇语音识别任务上的应用。

Abstract

In this paper we present a simple and computationally efficient quantization scheme that enables us to reduce the resolution of the parameters of a neural network from 32-bit floating point values to 8-bit integer values. The proposed quantization scheme leads to significant

neural network quantization scheme memory savings integer arithmetic speech recognition

发现论文，激发创造

神经网络的量化和训练，用于高效的整数运算推理

本文提出了一种量化方案，通过整数运算进行推断，以提高在移动设备上的效率，并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进，在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。

Dec, 2017

深度学习推理的整数量化：原理与实证评估

本文介绍了量化技术如何减小深度神经网络的规模，提高推理延迟和吞吐量，并评估它们在各种应用领域的不同神经网络模型上的选择，包括视觉、语音和语言等方面，并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时，还提供了一种 8 位量化工作流，能够在所有研究的网络上保持 1% 的浮点基线精度，包括更难量化的模型，如 MobileNets 和 BERT-large。

Apr, 2020

高效神经网络推理量化方法综述

本文旨在综述深度神经网络计算中数值量化的方法和优缺点，囊括了使用固定整数值的优点、及降低 4x 到 8x 等现实应用中的实际结果，以及占用更少的内存和降低延迟的潜力。

Mar, 2021

深度卷积网络的量化优化：一篇白皮书

本文概述了卷积神经网络量化技术，研究发现通过对权重和激活进行逐通道和逐层量化，即使在不支持 8 位运算的情况下，将权重量化为 8 位可以将模型大小降低 4 倍，并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试，并观察到相比于 CPU 上的浮点运算，量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具，并回顾了用于量化训练的最佳实践。作者建议，对于硬件加速和内核优化，应将逐通道量化的权重和逐层量化的激活作为首选量化方案，并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。

Jun, 2018

使用低比特量化来实现高效语音表示学习

我们对语音表示学习模型应用最近的量化技术，并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比，在 ASR 任务上，2 比特配置的存储更小，字错率更低，估计的运行时间更高效。

Dec, 2022

量子化神经网络方法和理论综述

本次研究对于深度神经网络的量化方法进行综述，重点探讨了量化对于模型大小、能量消耗以及在移动设备上的实际应用等方面的影响。

Aug, 2018

And the Bit Goes Down: 重新审视神经网络量化

本文提出一种矢量量化方法，以减小卷积神经网络架构的存储占用，能以较小的内存占用提供高精度的图像识别。

Jul, 2019

深度神经网络快速部署的量化技术

本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法，通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量，在 ImageNet 分类基准测试上通过了 11 个网络的评估，并且不需要微调即可将网络量化为 8 位整数精度。

Oct, 2018

深度神经网络自适应量化

本文提出了一种针对深度模型量化的优化框架和量化算法，首次理论分析单个图层的参数量化误差与模型精度之间的关系，达到了比以前的优化方法更高的压缩率和相同模型精度下更高的压缩率。

Dec, 2017

神经网络的训练与推理的价值感知量化

提出了一种新的价值感知量化方法，通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少 ResNet-152 和 Inception-v3 的激活器内存成本，并能实现 1％以下的 top-1 精度下降。

Apr, 2018