神经网络的最小二乘二值化

Jan, 2020

Least squares binary quantization of neural networks

Hadi Pouransari, Oncel Tuzel

TL;DR本文提出了一种新的二进制量化方式，使用该方式可以提高神经网络的推断效率，并在ImageNet数据集上进行了实验验证。

Abstract

Quantizing weights and activations of deep neural networks results in significant improvement in inference efficiency at the cost of lower accuracy. A source of the accuracy gap between full precision and quantiz

发现论文，激发创造

平衡量化：一种有效、高效的量化神经网络方法

本文提出了一种新的量化方法，可以确保量化值分布的平衡性，通过对参数进行分位数递归划分并应用均匀量化，可以提高 QNN 的预测准确性，同时对训练速度几乎没有影响，并可适用于卷积神经网络和循环神经网络。

Jun, 2017

深度卷积网络的量化优化：一篇白皮书

本文概述了卷积神经网络量化技术，研究发现通过对权重和激活进行逐通道和逐层量化，即使在不支持8位运算的情况下，将权重量化为8位可以将模型大小降低4倍，并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试，并观察到相比于CPU上的浮点运算，量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具，并回顾了用于量化训练的最佳实践。作者建议，对于硬件加速和内核优化，应将逐通道量化的权重和逐层量化的激活作为首选量化方案，并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。

Jun, 2018

SYQ:学习对称量化以实现高效的深度神经网络

本文介绍了一种量化方法——通过学习特定权重子组的对称码本，来减少权重亚群在前向传播和反向传播中的梯度误差，从而提高超低精度权重和激活的网络的准确性，并证明此表示对更粗粒度的方法没有或仅有最小的硬件影响。该方法可用于神经网络量化。

Jul, 2018

神经网络的低位量化以提高推理效率

本文提出了一种在有限硬件资源上实现预训练模型的4位整数（INT4）量化的优化方法，将线性量化任务形式化为最小均方误差（MMSE）问题，并对网络的每一层进行限制MSE问题的优化以及多个量化张量的硬件感知分区，除少量精度降低外，在多种网络架构上实现最先进的结果。

Feb, 2019

量化网络

该论文提出了一种将低位量化作为可微非线性函数的新方法，并通过该方法实现了神经网络的低位量化，并取得了比现有方法更好的效果。

Nov, 2019

BitPruning: 学习位长进行激进而精确的量化

通过提出一种惩罚体系惩罚大位长表示的正则化方法，我们可以在维持准确性的同时，在任意合适的层次上最小化推理位长。

Feb, 2020

深度学习推理的整数量化：原理与实证评估

本文介绍了量化技术如何减小深度神经网络的规模，提高推理延迟和吞吐量，并评估它们在各种应用领域的不同神经网络模型上的选择，包括视觉、语音和语言等方面，并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时，还提供了一种8位量化工作流，能够在所有研究的网络上保持1%的浮点基线精度，包括更难量化的模型，如MobileNets和BERT-large。

Apr, 2020

高效神经网络推理量化方法综述

本文旨在综述深度神经网络计算中数值量化的方法和优缺点，囊括了使用固定整数值的优点、及降低4x到8x等现实应用中的实际结果，以及占用更少的内存和降低延迟的潜力。

Mar, 2021

具有可证明保证的神经网络后训练量化

本研究提出了一种针对神经网络量化的方法，该方法通过量化权重来降低计算成本、内存占用和功耗，并促进权重的稀疏性，使用本方法在ImageNet上测试显示准确性的损失很小。

Jan, 2022

通过支撑和质量均衡设计三元神经网络量化的强基准线

本研究探讨深度神经网络的量化，并设计 TQuant 和 MQuant 两个操作符以最大化最小化的误差从而显著提高性能。

Jun, 2023