基于标记比例的逻辑回归蒸馏用于三元权重生成语言模型
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
本文提出 TernaryBERT,在 fine-tuned BERT 模型中采用了三元权重化,通过近似法和损失感知方法研究了 BERT 不同部分的三元化粒度,并在训练过程中利用知识蒸馏技术来减少低位容量引起的精度下降,实验证明 TernaryBERT 不仅优于其他 BERT 量化方法,而且在 14.9 倍的情况下与全精度模型性能相当。
Sep, 2020
BitDistiller 是一种通过 Quantization-Aware Training (QAT) 和 Knowledge Distillation (KD) 相结合的方法,可以提高大型语言模型在超低精度(低于 4 位)下的性能,包括了量化和剪裁技术以及一种新颖的 Confidence-Aware Kullback-Leibler Divergence (CAKLD) 目标函数,经实证评估,在 3 位和 2 位配置上明显超越现有方法,并且更加经济高效。
Feb, 2024
应用三值化和离群值友好特征知识蒸馏,我们提出了可学习的双向三值化方法,该方法在大型语言模型上表现优异,超越了其他低位量化方法,并在 C4 数据集上降低了困惑度,并在零样本任务的平均准确率上提高了 8.2%。
Jun, 2024
通过使用基于最优传输的通用对数蒸馏(ULD)损失函数,我们解决了传统方法中教师模型和学生模型需共享分词器的限制,提供了一种跨不同架构和分词器进行蒸馏的有效方法,为蒸馏技术的广泛应用铺平了道路。
Feb, 2024
提出了一种新的轻量级语言模型优化方法 EdgeQAT,通过熵和分布引导的量化感知训练,动态量化不同位宽的令牌,从而在边缘设备上实现推理加速,并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。
Feb, 2024
该研究提出了一种轻量级量化感知微调技术,使用知识蒸馏来改进 4 位权重量化大语言模型的性能,并通过对梯度传播进行实证研究以稳定 KD-QAT 过程。通过 ov-freeze 技术,在 4 位量化级别上实现了接近浮点精度性能,在常识推理基准测试中精度损失不超过 0.7%。
Mar, 2024
本文研究了利用共享学习通过跨多语言模型实现低资源语种机器翻译的方法,探讨了知识蒸馏和后训练量化等压缩模型的技术,并发现后训练量化在所有语种中表现更加稳定。
Oct, 2022
通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化(SDQ)的方法,该方法最小化积累的量化误差,并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base,并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重,同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战,这些模型必须概括他们没有针对性微调的语言。
Jul, 2023
该研究介绍了一种新的后训练量化方法 GPTQT,通过以 3 位 / 2 位表示 LLM 的权重,以减少内存使用并增强处理速度。经过测试,与强 3 位量化基准相比,GPTQT 在 opt-66B 上进一步降低了困惑度 4.01,并在 opt-30b 上提高了 1.24 倍的速度,说明 GPTQT 是目前针对此类 LLMs 的最佳二进制编码量化方法。
Jul, 2024