BitDistiller: 通过自我蒸馏释放次 4 位 LLMs 的潜力

Feb, 2024

BitDistiller: 通过自我蒸馏释放次 4 位 LLMs 的潜力

BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation

Dayou Du, Yijia Zhang, Shijie Cao, Jiaqi Guo, Ting Cao...

TL;DRBitDistiller 是一种通过 Quantization-Aware Training (QAT) 和 Knowledge Distillation (KD) 相结合的方法，可以提高大型语言模型在超低精度（低于 4 位）下的性能，包括了量化和剪裁技术以及一种新颖的 Confidence-Aware Kullback-Leibler Divergence (CAKLD) 目标函数，经实证评估，在 3 位和 2 位配置上明显超越现有方法，并且更加经济高效。

Abstract

The upscaling of large language models (LLMs) has yielded impressive advances in natural language processing, yet it also poses significant deployment challenges. Weight quantization has emerged as a widely embraced solution to reduce memory and computational demands. This paper introd

large language models quantization-aware training knowledge distillation ultra-low precisions bitdistiller

发现论文，激发创造

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

冻住！通过信号传播分析提高大型语言模型的量化知识蒸馏

该研究提出了一种轻量级量化感知微调技术，使用知识蒸馏来改进 4 位权重量化大语言模型的性能，并通过对梯度传播进行实证研究以稳定 KD-QAT 过程。通过 ov-freeze 技术，在 4 位量化级别上实现了接近浮点精度性能，在常识推理基准测试中精度损失不超过 0.7%。

Mar, 2024

基于标记比例的逻辑回归蒸馏用于三元权重生成语言模型

通过提出一种称为令牌缩放逻辑蒸馏的知识蒸馏方法，我们对大规模生成式语言模型进行了三值权重量化训练的首次评估，其中困惑度下降不到 1.0，推理任务并无准确性损失。

Aug, 2023

DB-LLM：用於高效 LLMs 的準確雙二元化

该研究提出了一种新颖的双二值化方法（DB-LLM），用于大型语言模型（LLMs）的超低位量化，以提高计算效率，并通过偏差感知蒸馏（DAD）方法减少预测失真，实现了超低位量化时的显著准确性提升和计算效率降低。

Feb, 2024

自监督量化感知知识蒸馏

该论文提出了一种新颖的自监督量化感知知识蒸馏 (SQAKD) 框架，通过将量化感知训练与知识蒸馏相结合，同时最小化全精度模型与低比特模型之间的 KL-Loss 和量化的离散化误差，从而有效克服了现有方法需要繁琐的超参数调节、标签数据需求和复杂的训练过程的限制，并在各种模型结构上明显优于现有的量化感知训练和知识蒸馏方法。

Mar, 2024

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

QuaLA-MiniLM：一种量化长度自适应 MiniLM 模型

使用 Length Adaptive Transformer 和 MiniLM distillation 加上低位量化技术，我们设计出一个高效的模型 QuaLA-MiniLM，在 SQuAD1.1 数据集上达到 x8.8 个速度提升且不到 1% 的精度损失。

Oct, 2022

自我蒸馏量化：在基于 Transformer 的语言模型中实现高压缩率

通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化（SDQ）的方法，该方法最小化积累的量化误差，并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base，并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重，同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战，这些模型必须概括他们没有针对性微调的语言。

Jul, 2023

BiLLM: 提高 LLM 后训练量化的极限

BiLLM 是一种创新的 1 位后训练量化方案，定制了预训练的大型语言模型，实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理，超过了 LLM 的 SOTA 量化方法。此外，BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程，显示了令人满意的时间效率。

Feb, 2024

触不得的易碎品：对比量化和蒸馏的稳定性以发展轻量低资源机器翻译模型

本文研究了利用共享学习通过跨多语言模型实现低资源语种机器翻译的方法，探讨了知识蒸馏和后训练量化等压缩模型的技术，并发现后训练量化在所有语种中表现更加稳定。

Oct, 2022