基于标记比例的逻辑回归蒸馏用于三元权重生成语言模型

Aug, 2023

基于标记比例的逻辑回归蒸馏用于三元权重生成语言模型

Token-Scaled Logit Distillation for Ternary Weight Generative Language Models

Minsoo Kim, Sihwa Lee, Janghwan Lee, Sukjin Hong, Du-Seong Chang...

TL;DR通过提出一种称为令牌缩放逻辑蒸馏的知识蒸馏方法，我们对大规模生成式语言模型进行了三值权重量化训练的首次评估，其中困惑度下降不到 1.0，推理任务并无准确性损失。

Abstract

generative language models (GLMs) have shown impressive performance in tasks such as text generation, understanding, and reasoning. However, the large model size poses challenges for practical deployment. To solve this problem, →

generative language models quantization-aware training knowledge distillation ternary weight quantization perplexity

发现论文，激发创造

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

TernaryBERT: 知识蒸馏感知的超低比特 BERT

本文提出 TernaryBERT，在 fine-tuned BERT 模型中采用了三元权重化，通过近似法和损失感知方法研究了 BERT 不同部分的三元化粒度，并在训练过程中利用知识蒸馏技术来减少低位容量引起的精度下降，实验证明 TernaryBERT 不仅优于其他 BERT 量化方法，而且在 14.9 倍的情况下与全精度模型性能相当。

Sep, 2020

BitDistiller: 通过自我蒸馏释放次 4 位 LLMs 的潜力

BitDistiller 是一种通过 Quantization-Aware Training (QAT) 和 Knowledge Distillation (KD) 相结合的方法，可以提高大型语言模型在超低精度（低于 4 位）下的性能，包括了量化和剪裁技术以及一种新颖的 Confidence-Aware Kullback-Leibler Divergence (CAKLD) 目标函数，经实证评估，在 3 位和 2 位配置上明显超越现有方法，并且更加经济高效。

Feb, 2024

TernaryLLM：三值化大型语言模型

应用三值化和离群值友好特征知识蒸馏，我们提出了可学习的双向三值化方法，该方法在大型语言模型上表现优异，超越了其他低位量化方法，并在 C4 数据集上降低了困惑度，并在零样本任务的平均准确率上提高了 8.2%。

Jun, 2024

迈向交叉标记器蒸馏：面向语言模型的通用逻辑蒸馏损失

通过使用基于最优传输的通用对数蒸馏（ULD）损失函数，我们解决了传统方法中教师模型和学生模型需共享分词器的限制，提供了一种跨不同架构和分词器进行蒸馏的有效方法，为蒸馏技术的广泛应用铺平了道路。

Feb, 2024

EdgeQAT：基于熵和分布的量化感知训练用于边缘轻量级语言模型加速

提出了一种新的轻量级语言模型优化方法 EdgeQAT，通过熵和分布引导的量化感知训练，动态量化不同位宽的令牌，从而在边缘设备上实现推理加速，并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。

Feb, 2024

冻住！通过信号传播分析提高大型语言模型的量化知识蒸馏

该研究提出了一种轻量级量化感知微调技术，使用知识蒸馏来改进 4 位权重量化大语言模型的性能，并通过对梯度传播进行实证研究以稳定 KD-QAT 过程。通过 ov-freeze 技术，在 4 位量化级别上实现了接近浮点精度性能，在常识推理基准测试中精度损失不超过 0.7%。

Mar, 2024

触不得的易碎品：对比量化和蒸馏的稳定性以发展轻量低资源机器翻译模型

本文研究了利用共享学习通过跨多语言模型实现低资源语种机器翻译的方法，探讨了知识蒸馏和后训练量化等压缩模型的技术，并发现后训练量化在所有语种中表现更加稳定。

Oct, 2022

自我蒸馏量化：在基于 Transformer 的语言模型中实现高压缩率

通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化（SDQ）的方法，该方法最小化积累的量化误差，并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base，并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重，同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战，这些模型必须概括他们没有针对性微调的语言。

Jul, 2023

GPTQT：将大型语言模型量化两次以提高效率

该研究介绍了一种新的后训练量化方法 GPTQT，通过以 3 位 / 2 位表示 LLM 的权重，以减少内存使用并增强处理速度。经过测试，与强 3 位量化基准相比，GPTQT 在 opt-66B 上进一步降低了困惑度 4.01，并在 opt-30b 上提高了 1.24 倍的速度，说明 GPTQT 是目前针对此类 LLMs 的最佳二进制编码量化方法。

Jul, 2024