神经网络压缩：二值化和少量全精度权值

Jun, 2023

神经网络压缩：二值化和少量全精度权值

Neural Network Compression using Binarization and Few Full-Precision Weights

PDF

Franco Maria Nardini, Cosimo Rulli, Salvatore Trani, Rossano Venturini

TL;DR本论文提出了自动修剪二值化 (APB) 技术，结合量化和修剪，提高二元网络的表示能力，通过将部分全精度权重进行二值化或保留原精度降低其存储，具备更好的精度 / 内存的性价比且在效率方面持续优化。

Abstract

quantization and pruning are known to be two effective Deep neural networks model →

quantization pruning neural networks compression accuracy

发现论文，激发创造

深度神经网络加速的修剪与量化：一份调查报告

本文介绍了深度神经网络中两种压缩技术 —— 剪枝和量化，比较了它们的优劣，并且提出了相关的压缩网络的实用指南。

Jan, 2021

使用单次剪枝量化压缩深度神经网络

本文提出了一种新颖的一次性剪枝量化（OPQ）方法，使用预先训练的模型参数解决剪枝和量化问题，并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验，结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。

May, 2022

深度压缩：剪枝、量化训练和霍夫曼编码压缩深度神经网络

该论文介绍了一种名为 “深度压缩” 的技术，通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍，而同时不影响网络的准确性，该技术可以在嵌入式系统中使用，可以极大地提升模型的应用性能。

Oct, 2015

渐进式 DNN 压缩：使用 ADMM 实现超高剪枝和量化率的关键

通过 ADMM（Alternating Direction Methods of Multipliers）方法，本文提出了一种新的基于 DNN 模型的结构压缩框架，实现了在不损失精度的情况下对 Lenet-5，AlexNet 和 ResNet-50 模型分别达到 246x，36x 和 8x 的权重剪枝，并且在 AlexNet（ImageNet）中 61x 的权重剪枝只导致了细微精度下降，还引导出了重要的基于 ResNet 和 MobileNet 模型的权重剪枝结果以及全层次二进制化的 LeNet-5 和 ResNet 等。

Mar, 2019

稀疏化二进制神经网络的二进制域泛化

该论文提出了一种新的更一般的二进制域，扩展了标准二进制域，并且更适合剪枝技术，在保证性能的同时提高了压缩率，这种方法与其他修剪策略相结合可以生成高效稀疏网络，并减少内存使用和运行时间延迟。

Jun, 2023

基于重新训练的深度神经网络迭代权重量化

本文提出了一种迭代的量化技术，将权重量化和完整精度权重的重新训练结合起来，以达到高压缩比和减少量化损失，同时证明该方法能够有效地利用剪枝等其他模型压缩技术，实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型，减少了硬件资源需求但不会降低准确性。

May, 2018

硬件感知的 DNN 压缩：通过多样化剪枝和混合精度量化

通过联合采用修剪和量化，利用强化学习探索与低能耗相关的设计空间及其精度损失，我们提出了一种自动压缩深度神经网络的硬件感知框架，能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明，相比现有方法，我们的框架平均能耗降低 39%，平均精度损失为 1.7%。

Dec, 2023

模型压缩作为约束优化的一种形式，以神经网络为例。第二部分：量化

通过使用带有 K 个条目的码簿进行实值权重的量化，我们提出了一种新方法，该方法基于模型压缩作为约束优化框架，交替进行连续权重的网络学习和权重量化（或二值化 / 三值化）的步骤，以便在量化网络的损失上收敛到局部最优解。

Jul, 2017

可微联合剪枝和量化提高硬件效率

我们提出了一种可微的联合剪枝和量化 (DJPQ) 方案，将神经网络压缩视为联合基于梯度的优化问题，在模型剪枝和量化之间自动地进行权衡，以实现硬件效率，相比之下，我们的方法使用户能够在单个培训过程中找到两者之间的最佳权衡。

Jul, 2020

PB-LLM：部分二元化大型语言模型

本文研究了网络二值化技术在大型语言模型（LLMs）压缩中的应用。通过提出一种新的方法，即部分二值化 LLMs（PB-LLM），我们能够在保持低位量化的同时保持 LLMs 的语言推理能力。我们通过后训练量化（PTQ）和量化感知训练（QAT）的分析，提出了恢复量化 LLMs 容量的方法。这些研究和方法对于改善低位量化 LLMs 的性能以及网络二值化在 LLMs 领域的发展具有重要的意义。

Sep, 2023