利用量化噪音进行极限模型压缩的训练
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
本文提出了 DiffQ,一种不需要渐近梯度估计的可微方法,用于在训练期间对模型参数进行量化。DiffQ 在多个基准测试和体系结构上进行了实验验证,对于图像分类、语言建模和音频源分离等任务,能够优化每个权重或一组权重使用的位数,并在模型精度损失 0.3% 的情况下将 12 层的变压器模型压缩了超过 8 倍 。
Apr, 2021
本文提出了一种迭代的量化技术,将权重量化和完整精度权重的重新训练结合起来,以达到高压缩比和减少量化损失,同时证明该方法能够有效地利用剪枝等其他模型压缩技术,实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型,减少了硬件资源需求但不会降低准确性。
May, 2018
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022
提出了一种软硬编码的方法用于神经图像压缩,通过先学习一个表达力强的隐变量空间,再采用硬编码方法解决了训练集和测试集不匹配的问题,同时引入加性噪声自适应控制量化粒度,实验结果表明该方法在复杂压缩模型上表现稳定且有效。
Apr, 2021
通过使用带有 K 个条目的码簿进行实值权重的量化,我们提出了一种新方法,该方法基于模型压缩作为约束优化框架,交替进行连续权重的网络学习和权重量化(或二值化 / 三值化)的步骤,以便在量化网络的损失上收敛到局部最优解。
Jul, 2017
通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化(SDQ)的方法,该方法最小化积累的量化误差,并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base,并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重,同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战,这些模型必须概括他们没有针对性微调的语言。
Jul, 2023
本文介绍了一种新的深度神经网络压缩方法,在学习阶段增加额外的正则化项来减小全连接层的参数量,并结合 PQ 权重的量化以更节约存储空间。在 MNIST 和 CIFAR10 数据集上进行评估,与现有方法相比,压缩率显著提高。
Sep, 2015
本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法,通过在不同结构、层次上采用不同的精度,达到更好的压缩比和准确率的平衡。实验结果表明,与传统量化方法相比,该方法在相同压缩率下表现更优。
Oct, 2018