用于快速模型推理的神经网络压缩框架

Feb, 2020

用于快速模型推理的神经网络压缩框架

Neural Network Compression Framework for fast model inference

Alexander Kozlov, Ivan Lazarevich, Vasily Shamporov, Nikolay Lyalyushkin, Yury Gorbachev

TL;DR该论文提出了一个新的神经网络压缩框架 NNCF，它基于当前各种网络压缩方法进行改进，如稀疏化、量化和二值化。这些方法可以加速推理时间，同时保持原有的准确性。NNCF 可作为训练样本或单独的软件包供使用，并且可以无缝地集成到现有的训练代码中。

Abstract

In this work we present a new framework for neural networks compression with fine-tuning, which we called neural network compression Framework (NNCF). It leverages recent advances of various network compression methods and implements some of them, such as →

neural network compression quantization binarization sparsity inference time acceleration

发现论文，激发创造

可编程的神经网络压缩方法

本文介绍了一种名为 Condensa 的可编程模型压缩系统，可以通过程序化组合简单的操作符来构建更复杂和实际的压缩策略，并使用贝叶斯优化算法自动推断最佳稀疏度，实验结果表明，该系统可以在保持较高准确率的前提下，将存储占用和运行时间分别提高 188 倍和 2.59 倍。

Nov, 2019

改进的贝叶斯压缩

本文提出了结合软权重共享和变分 dropout 方法的神经网络模型压缩新方法，达到了工业规模使用的标准。

Nov, 2017

深度神经网络在线压缩

本文介绍了一种新的深度神经网络压缩方法，在学习阶段增加额外的正则化项来减小全连接层的参数量，并结合 PQ 权重的量化以更节约存储空间。在 MNIST 和 CIFAR10 数据集上进行评估，与现有方法相比，压缩率显著提高。

Sep, 2015

面向硬件特定的神经网络自动压缩技术

使用强化学习方法的算法框架 Galen，可以自动压缩特定硬件目标的神经网络模型，不仅支持修剪、量化等压缩方法的联合搜索，还将目标硬件设备上的推理延迟作为优化目标，通过该方法能够将 CIFAR-10 上的 ResNet18 模型，在嵌入式 ARM 处理器上推理延迟仅为原始延迟的 20%，精度损失不大。

Dec, 2022

深度压缩：剪枝、量化训练和霍夫曼编码压缩深度神经网络

该论文介绍了一种名为 “深度压缩” 的技术，通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍，而同时不影响网络的准确性，该技术可以在嵌入式系统中使用，可以极大地提升模型的应用性能。

Oct, 2015

自压缩神经网络

本文介绍了一种称为 Self-Compression 的方法，可以移除神经网络中的冗余参数和减少表示权重所需的位数，从而简化网络结构，提高训练和推断效率。作者通过实验证明，使用 Self-Compression 方法可以在只保留网络中 18% 的权重和仅需 3% 的位数的条件下，还能实现浮点数的准确性。

Jan, 2023

深度神经网络模型压缩与加速综述

本文对深度神经网络模型压缩和加速的最新技术进行了回顾，介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点，同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力，并讨论了面临的挑战和未来方向。

Oct, 2017

硬件感知的 DNN 压缩：通过多样化剪枝和混合精度量化

通过联合采用修剪和量化，利用强化学习探索与低能耗相关的设计空间及其精度损失，我们提出了一种自动压缩深度神经网络的硬件感知框架，能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明，相比现有方法，我们的框架平均能耗降低 39%，平均精度损失为 1.7%。

Dec, 2023

面向移动应用的快速低功耗深度卷积神经网络压缩

提出了一种简单而有效的方案 —— 单次整个网络压缩，以在移动设备上部署深度卷积神经网络，并通过对各种压缩卷积神经网络在智能手机上的性能进行测试，证明了所提方案的有效性，可获得显著的模型尺寸、运行时间和能量消耗的降低，同时只付出了小量精度损失。

Nov, 2015

SparseByteNN：一种基于细粒度分组稀疏性的新型移动推理加速框架

为了解决网络规模增大的挑战，研究者通过网络剪枝开发了稀疏模型。然而，在通用计算设备上实现显著加速的同时保持模型准确性仍然是一个未解决的问题。在本文中，我们提出了一种新颖的移动推理加速框架 SparseByteNN，通过利用细粒度的内核稀疏性实现实时执行和高准确性。我们的框架包括两个部分：（a）一种细粒度的内核稀疏模式，其稀疏粒度介于结构化剪枝和非结构化剪枝之间。它为不同操作器设计了多种稀疏模式。结合我们提出的整体网络重新排列策略，该模式同时实现高压缩率和高精度。（b）与稀疏模式共同优化的推理引擎。常理认为，这种理论上的 FLOPs 减少并不能转化为真实世界的效率提升。我们旨在通过引入一族针对 ARM 和 WebAssembly 的高效稀疏内核来纠正这种误解。通过我们对稀疏原语的高效实现，我们展示了 MobileNet-v1 的稀疏版本在效率 - 准确性曲线上胜过性能强大且密集的基线模型。Qualcomm 855 的实验结果表明，对于 30％稀疏的 MobileNet-v1，SparseByteNN 相对于密集版本获得了 1.27 倍的加速，并相对于最先进的稀疏推理引擎 MNN 获得了 1.29 倍的加速，准确性略有下降，下降了 0.224％。SparseByteNN 的源代码将在此 https URL 上提供。

Oct, 2023