卷积神经网络量化与注意力机制

Sep, 2022

Convolutional Neural Networks Quantization with Attention

Binyi Wu, Bernd Waschneck, Christian Georg Mayr

TL;DR本文提出双阶段压缩与阈值化方法 (double-stage ST)，使用注意力机制量化网络，在卷积前插入即可实现，达到超越全精度基线模型的准确性。

Abstract

It has been proven that, compared to using 32-bit floating-point numbers in the training phase, deep convolutional neural networks (DCNNs) can operate with low precision during inference, thereby saving memory sp

deep convolutional neural networks low precision quantizing networks double-stage squeeze-and-threshold state-of-art results

发现论文，激发创造

深度卷积网络的量化优化：一篇白皮书

本文概述了卷积神经网络量化技术，研究发现通过对权重和激活进行逐通道和逐层量化，即使在不支持 8 位运算的情况下，将权重量化为 8 位可以将模型大小降低 4 倍，并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试，并观察到相比于 CPU 上的浮点运算，量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具，并回顾了用于量化训练的最佳实践。作者建议，对于硬件加速和内核优化，应将逐通道量化的权重和逐层量化的激活作为首选量化方案，并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。

Jun, 2018

用于快速部署的卷积神经网络后训练 4 位量化

本研究提出了第一种实用的 4 位后训练量化方法，不涉及训练经过量化模型（微调），也不需要完整数据集的可用性。我们针对激活和权重的量化提出了三种互补方法，以在张量层面上最小化量化误差，并取得了几个百分点少于各种卷积模型现有技术水平基准值的准确性。

Oct, 2018

低比特宽度权重和激活的卷积神经网络有效训练

本文提出了三种实用方法来优化低精度深度卷积神经网络，包括渐进式量化、随机量化以及联合知识蒸馏来提高网络训练。通过实验证明，该方法在各种数据集上表现良好。

Aug, 2019

可验证和高能效的医学图像分析：基于量化自注意力深度神经网络

通过使用基于自注意力的量化独立模型代替传统的卷积神经网络，我们在分类和分割任务上实验验证了其性能，发现在 CPU 预测时，模型大小可减少 50-80％，参数数量可减少 60-80％，FLOPs 数可减少 40-85％，能源效率可提高 65-80％，这种代替的方法是一种可选的解决方案。

Sep, 2022

移动设备上的量化卷积神经网络

该研究提出了一种名为量化卷积神经网络的模型，旨在通过量化卷积层中的滤波器核和全连接层中的权重矩阵，实现计算效率的提升和存储内存开销的降低，相对于非量化模型，该模型在 ILSVRC-12 基准测试中达到 4~6 倍的加速和 15~20 倍的压缩，仅有 1% 左右的分类准确率损失，并且甚至可以在移动设备上在一秒内精准分类照片。

Dec, 2015

深度卷积网络的定点量化

本研究提出了一种针对深度卷积网络的定点数实现的量化器设计，通过优化比特宽度分配，实现了在 CIFAR-10 基准测试上降低模型大小 20% 以上的优化，同时保持了原始浮点模型的准确性，该设计还能通过微调进一步提高模型的精度，从而实现在定点数性能方面的新的最高水平达到 6.78％的误差率。

Nov, 2015

深度神经网络快速部署的量化技术

本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法，通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量，在 ImageNet 分类基准测试上通过了 11 个网络的评估，并且不需要微调即可将网络量化为 8 位整数精度。

Oct, 2018

LQ-Nets: 针对高准确性和紧凑型深度神经网络的学习量化

本文提出了一种用于深度神经网络（DNN）压缩的联合训练方法，以便同时训练量化器和 DNN，以便量化网络权重和激活，并提高量化模型的预测准确性。在 CIFAR-10 和 ImageNet 数据集上进行的全面实验显示，该方法在各种网络结构上都运行良好，超越了以前的量化方法。

Jul, 2018

And the Bit Goes Down: 重新审视神经网络量化

本文提出一种矢量量化方法，以减小卷积神经网络架构的存储占用，能以较小的内存占用提供高精度的图像识别。

Jul, 2019

神经网络量化的噪声注入和夹紧估计（NICE）

本文提出了一种通过噪声注入和学习夹紧来训练量化神经网络的方法，可显著加速卷积神经网络在 FPGA 上的运行速度，同时提高其准确性。

Sep, 2018