通过训练后的层内多精度量化减少 DNN 内存占用

Apr, 2024

通过训练后的层内多精度量化减少 DNN 内存占用

DNN Memory Footprint Reduction via Post-Training Intra-Layer Multi-Precision Quantization

Behnam Ghavami, Amin Kamjoo, Lesley Shannon, Steve Wilton

TL;DR为了在资源受限的边缘设备上部署深度神经网络模型并保护隐私，本文介绍了一种有效减小深度神经网络内存占用的技术，该技术名为后训练内层多精度量化（PTILMPQ），通过估计网络中层和通道的重要性，实现了在量化过程中的精确位分配。实验结果表明，PTILMPQ 为在内存资源受限的边缘设备上部署深度神经网络提供了有希望的解决方案，例如，在 ResNet50 的情况下，它以 9.5MB 的内存占用达到了 74.57% 的准确率，相比之前类似方法减小了 25.49%，仅有 1.08% 的准确率下降。

Abstract

The imperative to deploy deep neural network (DNN) models on resource-constrained edge devices, spurred by privacy concerns, has become in

deep neural network edge devices memory footprint post-training intra-layer multi-precision quantization resource-constrained

发现论文，激发创造

深度神经网络能效实现的后训练量化

该论文提出了一种基于量化的后训练量化流程，无需重新训练即可加速深度神经网络的推理，并得到了在 ImageNet 上 6 位的 Top-1 准确率增加 2.2% 的结果。

Oct, 2022

深度神经网络快速部署的量化技术

本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法，通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量，在 ImageNet 分类基准测试上通过了 11 个网络的评估，并且不需要微调即可将网络量化为 8 位整数精度。

Oct, 2018

使用层间依赖增强 Hessian 矩阵，用于混合精度后训练量化

提出了一种混合精度后训练量化（PTQ）方法，使用二阶信息和层间依赖关系指导双分搜索，以在用户可配置的模型准确度降低范围内找到量化配置。该方法可以降低内存占用并提高延迟，同时保持模型准确性。

Jun, 2023

基于内存的混合低精度量化，实现微控制器上深度网络推断

本文提出了一种新颖的端到端方法，用于在微控制器上部署低误差的深度神经网络，通过混合低位宽压缩，结合 8、4 或 2 位均匀量化，以整数运算来建模推理图，旨在确定每个激活和权重张量的最小位精度，摆脱了资源受限边缘设备的内存和计算限制，通过一个基于规则的迭代过程，运用量化感知的重训练，将虚假量化图转换为整数推理模型，使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上，并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果，实验结果表明，相比于之前发表的微控制器 8 位实现，Top1 精度提高了 8％，达到了 68％。

May, 2019

神经网络量化白皮书

介绍了现代神经网络中减少计算成本和提高性能的两种量化算法： Post-Training Quantization 和 Quantization-Aware Training。

Jun, 2021

硬件感知的 DNN 压缩：通过多样化剪枝和混合精度量化

通过联合采用修剪和量化，利用强化学习探索与低能耗相关的设计空间及其精度损失，我们提出了一种自动压缩深度神经网络的硬件感知框架，能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明，相比现有方法，我们的框架平均能耗降低 39%，平均精度损失为 1.7%。

Dec, 2023

深度神经网络后训练分段线性量化

本文提出了一种基于分段线性量化的方法，通过最小化量化误差来确定最优的分界点，解决了现有量化方法在低位宽下性能显著下降的问题，在图像分类、语义分割和物体检测等方面表现优异。

Jan, 2020

FxP-QNet: 一种用于混合低精度 DNN 设计的训练后量化器，采用动态定点表示

本文提出一种新的深度神经网络固定点量化框架 (FxP-QNet)，该框架可以在保证网络精度的前提下，根据网络对低精度的需求动态地设计不同精度的量化级别。在基准测试 (ImageNet) 中，模型的内存需求得到了 7.16 倍 - 10.36 倍的压缩，同时准确率只有不到 2% 的损失。

Mar, 2022

And the Bit Goes Down: 重新审视神经网络量化

本文提出一种矢量量化方法，以减小卷积神经网络架构的存储占用，能以较小的内存占用提供高精度的图像识别。

Jul, 2019

PIM-QAT：面向处理内存系统（PIM）的神经网络量化

本研究提出了一种针对处理内存 (PIM) 量化的方法 (PIM-QAT)，通过分析训练动态，引入反向传播和前向传播重缩放技术，提出批归一化 (BN) 校准和调整精度训练等技术，有效地解决了硬件约束引起的非理想因素，实现了 PIM 系统中具有可比性的推理精度。

Sep, 2022