稀疏卷积神经网络的聚焦量化

Mar, 2019

Focused Quantization for Sparse CNNs

Yiren Zhao, Xitong Gao, Daniel Bates, Robert Mullins, Cheng-Zhong Xu

TL;DR本文提出一种基于二次幂值的、专注于稀疏 CNN 的量化策略，并结合无损编码构建一种高压缩比、计算成本低、准确率几乎无损的压缩管线，在 ResNet-50 网络上实现 18.08x CR 的压缩效果，同时也证明更硬件有效。

Abstract

Deep convolutional neural networks (CNNs) are powerful tools for a wide range of vision tasks, but the enormous amount of memory and compute resources required by CNNs pose a challenge in deploying them on constrained devices. Existing →

convolutional neural networks compression quantization sparse cnns power-of-two

发现论文，激发创造

移动设备上的量化卷积神经网络

该研究提出了一种名为量化卷积神经网络的模型，旨在通过量化卷积层中的滤波器核和全连接层中的权重矩阵，实现计算效率的提升和存储内存开销的降低，相对于非量化模型，该模型在 ILSVRC-12 基准测试中达到 4~6 倍的加速和 15~20 倍的压缩，仅有 1% 左右的分类准确率损失，并且甚至可以在移动设备上在一秒内精准分类照片。

Dec, 2015

FPGA 上高吞吐量混合精度 CNN 加速器设计

本文研究了深度神经网络在 FPGA 上的优化设计，提出使用多种精度量化来减少计算和数据传输成本，并成功实现了针对混合精度 CNN 的高效硬件加速器，能够达到高精度和高性能的权衡。

Aug, 2022

And the Bit Goes Down: 重新审视神经网络量化

本文提出一种矢量量化方法，以减小卷积神经网络架构的存储占用，能以较小的内存占用提供高精度的图像识别。

Jul, 2019

利用矢量量化压缩深度卷积网络

本文探讨信息理论中的向量量化方法，用于压缩卷积神经网络中的参数，结果表明针对最消耗存储的稠密连接层使用向量量化方法比现有的矩阵分解方法更加高效，仅使用最先进的 CNN 模型在 ImageNet 挑战赛的 1000 分类任务中，即使损失 1% 的分类准确率，也能获得 16-24 倍的网络压缩优化。

Dec, 2014

硬件感知的 DNN 压缩：通过多样化剪枝和混合精度量化

通过联合采用修剪和量化，利用强化学习探索与低能耗相关的设计空间及其精度损失，我们提出了一种自动压缩深度神经网络的硬件感知框架，能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明，相比现有方法，我们的框架平均能耗降低 39%，平均精度损失为 1.7%。

Dec, 2023

深度神经网络压缩的可微细粒度量化

本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法，通过在不同结构、层次上采用不同的精度，达到更好的压缩比和准确率的平衡。实验结果表明，与传统量化方法相比，该方法在相同压缩率下表现更优。

Oct, 2018

网络增量量化：实现低精度权重的无损卷积神经网络

介绍了一种增量网络量化方法，该方法可以高效地将任何已训练好的卷积神经网络模型转换为低精度版本，它的权重被限制为二的幂次或零，并成功解决了现有方法存在的精度丢失问题。

Feb, 2017

使用单次剪枝量化压缩深度神经网络

本文提出了一种新颖的一次性剪枝量化（OPQ）方法，使用预先训练的模型参数解决剪枝和量化问题，并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验，结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。

May, 2022

深度神经网络加速器中的量化和映射协同探索

卷积神经网络（CNN）的能效和内存占用取决于权重量化策略和映射，通过启用丰富的混合量化方案，我们可以找到更有效利用硬件资源的映射，从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展 Timeloop 工具，提出了一种高效的多目标优化算法，实证了该方法在两种 CNN 和两种加速器上的有效性，并证明了相对于未经精心优化的 CNN 实现，可以实现高达 37% 的能量节省，而无需降低精度。

Apr, 2024

基于重新训练的深度神经网络迭代权重量化

本文提出了一种迭代的量化技术，将权重量化和完整精度权重的重新训练结合起来，以达到高压缩比和减少量化损失，同时证明该方法能够有效地利用剪枝等其他模型压缩技术，实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型，减少了硬件资源需求但不会降低准确性。

May, 2018