利用量化噪音进行极限模型压缩的训练

Apr, 2020

利用量化噪音进行极限模型压缩的训练

Training with Quantization Noise for Extreme Model Compression

Angela Fan, Pierre Stock, Benjamin Graham, Edouard Grave, Remi Gribonval...

TL;DR本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题，将讨论延伸量化感知训练的方法，实现了仅在每个前向传递过程中量化不同的一组随机权重，从而利用 SE 残差正向时间传递的无偏梯度实现极端压缩的目的，并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。

Abstract

We tackle the problem of producing compact models, maximizing their accuracy for a given model size. A standard solution is to train networks with →

compact models quantization aware training extreme compression methods unbiased gradients model size

发现论文，激发创造

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

通过伪量化噪声实现可微分的模型压缩

本文提出了 DiffQ，一种不需要渐近梯度估计的可微方法，用于在训练期间对模型参数进行量化。DiffQ 在多个基准测试和体系结构上进行了实验验证，对于图像分类、语言建模和音频源分离等任务，能够优化每个权重或一组权重使用的位数，并在模型精度损失 0.3% 的情况下将 12 层的变压器模型压缩了超过 8 倍。

Apr, 2021

基于重新训练的深度神经网络迭代权重量化

本文提出了一种迭代的量化技术，将权重量化和完整精度权重的重新训练结合起来，以达到高压缩比和减少量化损失，同时证明该方法能够有效地利用剪枝等其他模型压缩技术，实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型，减少了硬件资源需求但不会降低准确性。

May, 2018

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

软硬结合：重新思考神经图像压缩中的量化

提出了一种软硬编码的方法用于神经图像压缩，通过先学习一个表达力强的隐变量空间，再采用硬编码方法解决了训练集和测试集不匹配的问题，同时引入加性噪声自适应控制量化粒度，实验结果表明该方法在复杂压缩模型上表现稳定且有效。

Apr, 2021

模型压缩作为约束优化的一种形式，以神经网络为例。第二部分：量化

通过使用带有 K 个条目的码簿进行实值权重的量化，我们提出了一种新方法，该方法基于模型压缩作为约束优化框架，交替进行连续权重的网络学习和权重量化（或二值化 / 三值化）的步骤，以便在量化网络的损失上收敛到局部最优解。

Jul, 2017

一次性权重耦合学习的无需重新训练的模型量化

通过一种一次性训练 - 搜索范式，本文研究了混合精度模型压缩的问题，并提出了一种动态冻结和信息失真缓解技术来优化位宽配置和性能下降。

Jan, 2024

自我蒸馏量化：在基于 Transformer 的语言模型中实现高压缩率

通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化（SDQ）的方法，该方法最小化积累的量化误差，并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base，并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重，同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战，这些模型必须概括他们没有针对性微调的语言。

Jul, 2023

深度神经网络在线压缩

本文介绍了一种新的深度神经网络压缩方法，在学习阶段增加额外的正则化项来减小全连接层的参数量，并结合 PQ 权重的量化以更节约存储空间。在 MNIST 和 CIFAR10 数据集上进行评估，与现有方法相比，压缩率显著提高。

Sep, 2015

深度神经网络压缩的可微细粒度量化

本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法，通过在不同结构、层次上采用不同的精度，达到更好的压缩比和准确率的平衡。实验结果表明，与传统量化方法相比，该方法在相同压缩率下表现更优。

Oct, 2018