该论文提出了一种新颖的自监督量化感知知识蒸馏 (SQAKD) 框架,通过将量化感知训练与知识蒸馏相结合,同时最小化全精度模型与低比特模型之间的 KL-Loss 和量化的离散化误差,从而有效克服了现有方法需要繁琐的超参数调节、标签数据需求和复杂的训练过程的限制,并在各种模型结构上明显优于现有的量化感知训练和知识蒸馏方法。
Mar, 2024
本文提出了一种量化感知知识蒸馏的方法,并通过三个阶段的教学来协调量化和 KD,从而在 ImageNet 和 CIFAR-10 / 100 数据集上提高了模型的性能。
Nov, 2019
本文提出了两种知识蒸馏方法,即注意力映射和注意力输出损失,并探索了两者的统一,以解决注意力重构的不足。实验结果表明,这两种知识蒸馏方法可以在使用小于 2 位的量化权重时,获得具有先进性的精度。
Nov, 2022
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
提出了一种新的轻量级语言模型优化方法 EdgeQAT,通过熵和分布引导的量化感知训练,动态量化不同位宽的令牌,从而在边缘设备上实现推理加速,并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。
Feb, 2024
本文提出一种基于 coreset selection 的 quantization-aware adaptive coreset selection (ACS) 方法,以提高 quantization-aware training 的训练效率。该方法通过 error vector score 和 disagreement score 量化每个样本的重要性,并根据这些指标选择数据进行训练,在多个网络和数据集上获得了显著的提高。
Jun, 2023
该研究提出了一种轻量级量化感知微调技术,使用知识蒸馏来改进 4 位权重量化大语言模型的性能,并通过对梯度传播进行实证研究以稳定 KD-QAT 过程。通过 ov-freeze 技术,在 4 位量化级别上实现了接近浮点精度性能,在常识推理基准测试中精度损失不超过 0.7%。
提出了一种不依赖于反向传播的新型 PTQ 算法,通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系,从而显著优于传统的 PTQ 方法,特别是在低位宽情况下。
Jun, 2024
本文提出了一种无需数据的对抗知识蒸馏,通过合成数据来实现数据自由的网络量化,包括多个生成器和多个学生的多样化对抗样本,实现了 (wide) residual networks 和 MobileNet 在 SVHN、CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上最先进的数据自由模型压缩和量化效果。
May, 2020
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。