高效神经压缩与推理时间解码

Jun, 2024

Efficient Neural Compression with Inference-time Decoding

C. Metz, O. Bichler, A. Dupret

TL;DR通过混合精度量化、零点量化和熵编码将 Resnets 的压缩边界推进到 1 位以外，在 ImageNet 基准测试中准确度下降不超过 1%。

Abstract

This paper explores the combination of neural network quantization and entropy coding for memory footprint minimization. Edge deployment o

neural network quantization entropy coding memory footprint minimization mixed precision quantization 1-bit frontier

发现论文，激发创造

神经图像压缩的带宽有效推理

我们提出了一种端到端可微分的带宽高效神经推理方法，通过神经数据压缩方法对激活进行压缩，可实现高达 19 倍的带宽减少和 6.21 倍的能量节省。

Sep, 2023

And the Bit Goes Down: 重新审视神经网络量化

本文提出一种矢量量化方法，以减小卷积神经网络架构的存储占用，能以较小的内存占用提供高精度的图像识别。

Jul, 2019

通过 - 1 和 + 1 的编码分解实现多精度量化神经网络

为了应用 DNN 在移动设备中，我们提出了压缩 QNN 的新编码方案，使用 {-1, +1} 将其分解成多个二进制网络，使用位运算 (xnor 和 bitcount) 实现模型压缩、计算加速和资源节约。我们的方法非常适合在 FPGA 和 ASIC 上使用，验证了在大规模图像分类 (例如 ImageNet) 和物体检测任务中具有与全精度相近的性能。

May, 2019

Pareto-Optimal Quantized ResNet 可优化量化为主要 4 位

研究表明，使用 4 位和 8 位模型量化的 bfloat16 ResNet 模型计算成本和准确性的权衡曲线优于 bfloat16 模型，其中以 4 位模型量化为主的模型具有最佳 Pareto 曲线，并且基于量化感知训练的 4 位 ResNet-50 模型在 ImageNet 上取得了 77.09％的准确率。

May, 2021

深度神经网络压缩的可微细粒度量化

本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法，通过在不同结构、层次上采用不同的精度，达到更好的压缩比和准确率的平衡。实验结果表明，与传统量化方法相比，该方法在相同压缩率下表现更优。

Oct, 2018

神经网络的训练与推理的价值感知量化

提出了一种新的价值感知量化方法，通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少 ResNet-152 和 Inception-v3 的激活器内存成本，并能实现 1％以下的 top-1 精度下降。

Apr, 2018

神经网络的低位量化以提高推理效率

本文提出了一种在有限硬件资源上实现预训练模型的 4 位整数（INT4）量化的优化方法，将线性量化任务形式化为最小均方误差（MMSE）问题，并对网络的每一层进行限制 MSE 问题的优化以及多个量化张量的硬件感知分区，除少量精度降低外，在多种网络架构上实现最先进的结果。

Feb, 2019

一次性权重耦合学习的无需重新训练的模型量化

通过一种一次性训练 - 搜索范式，本文研究了混合精度模型压缩的问题，并提出了一种动态冻结和信息失真缓解技术来优化位宽配置和性能下降。

Jan, 2024

利用量化噪音进行极限模型压缩的训练

本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题，将讨论延伸量化感知训练的方法，实现了仅在每个前向传递过程中量化不同的一组随机权重，从而利用 SE 残差正向时间传递的无偏梯度实现极端压缩的目的，并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。

Apr, 2020

最小化随机代码学习：从压缩模型参数中获取二进制位

本文提出了一种通过使用全变分权重分布进行深度神经网络压缩的方法，能够实现更高的压缩率和更高的测试性能，并在 LeNet-5/MNIST 和 VGG-16/CIFAR-10 基准测试中创造出新的最优结果。

Sep, 2018