模型压缩的失真率研究：从理论到实践

Oct, 2018

模型压缩的失真率研究：从理论到实践

Rate Distortion For Model Compression: From Theory To Practice

Weihao Gao, Yu-Han Liu, Chong Wang, Sewoong Oh

TL;DR本文研究深度神经网络模型压缩技术，提出了基于速率失真理论的压缩架构以及优化剪枝和量化技术，理论上证明了该架构对于一层 ReLU 神经网络最优，实验证明该方法在压缩 - 精度平衡上显著优于基线方法。

Abstract

The enormous size of modern deep neural networks makes it challenging to deploy those models in memory and communication limited scenarios. Thus, compressing a trained model without a significant loss in performance has become an increasingly important task. Tremendous advances has bee

deep neural networks model compression parameter pruning parameter sharing low-rank factorization

发现论文，激发创造

模型剪枝的信息论理论解释

本文探讨了神经网络压缩问题，利用率失真理论解释了压缩比和神经网络性能之间的张力，提出了一种压缩和失真之间的折衷方法，并通过该理论分析表明模型剪枝是好的压缩算法的一部分，最后，提出了一种基于信息理论的剪枝策略并在 CIFAR-10 和 ImageNet 数据集上显示出其优越性。

Feb, 2021

深度神经网络模型压缩与加速综述

本文对深度神经网络模型压缩和加速的最新技术进行了回顾，介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点，同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力，并讨论了面临的挑战和未来方向。

Oct, 2017

推动神经图像压缩的速率失真计算前沿

通过我们的速率 - 失真计算（RDC）研究，我们展示了虽然浮点运算（FLOPs）和运行时间对于准确地比较神经压缩方法都是不足够的，但我们还是找到了一种新型神经压缩架构，其在计算要求和 RD 性能之间具有最佳的实证权衡。

Sep, 2023

基于蒸馏和量化的模型压缩

本文提出了两种新的模型压缩方法：量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明，在资源受限的环境中，量化浅层神经网络可以达到与全精度模型相似的准确性水平，同时提供数量级压缩和推断加速。

Feb, 2018

深度压缩：剪枝、量化训练和霍夫曼编码压缩深度神经网络

该论文介绍了一种名为 “深度压缩” 的技术，通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍，而同时不影响网络的准确性，该技术可以在嵌入式系统中使用，可以极大地提升模型的应用性能。

Oct, 2015

分布式深度学习压缩通信的理论分析与实际实现之间的差异

通过实验和理论分析，本文表明在深度神经网络的分布式数据并行训练中，面向单个层的压缩比面向整个模型的压缩方式更好，但实验也显示，具体训练模型和压缩率都可能导致实际收敛率的变化。因此，本文建议深度学习框架应支持面向单个层和整个模型的压缩方式。

Nov, 2019

深度神经网络加速的修剪与量化：一份调查报告

本文介绍了深度神经网络中两种压缩技术 —— 剪枝和量化，比较了它们的优劣，并且提出了相关的压缩网络的实用指南。

Jan, 2021

面向硬件特定的神经网络自动压缩技术

使用强化学习方法的算法框架 Galen，可以自动压缩特定硬件目标的神经网络模型，不仅支持修剪、量化等压缩方法的联合搜索，还将目标硬件设备上的推理延迟作为优化目标，通过该方法能够将 CIFAR-10 上的 ResNet18 模型，在嵌入式 ARM 处理器上推理延迟仅为原始延迟的 20%，精度损失不大。

Dec, 2022

自然语言任务上结合压缩的乘法尺度缩放

本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪，发现量化和知识蒸馏提供了比修剪更大的好处，同时多种方法的组合具有协同减小模型大小的效果。

Aug, 2022

模型压缩作为约束优化的一种形式，以神经网络为例。第二部分：量化

通过使用带有 K 个条目的码簿进行实值权重的量化，我们提出了一种新方法，该方法基于模型压缩作为约束优化框架，交替进行连续权重的网络学习和权重量化（或二值化 / 三值化）的步骤，以便在量化网络的损失上收敛到局部最优解。

Jul, 2017