自我蒸馏量化：在基于 Transformer 的语言模型中实现高压缩率

Jul, 2023

自我蒸馏量化：在基于 Transformer 的语言模型中实现高压缩率

Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models

James O' Neill, Sourav Dutta

TL;DR通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化（SDQ）的方法，该方法最小化积累的量化误差，并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base，并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重，同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战，这些模型必须概括他们没有针对性微调的语言。

Abstract

We investigate the effects of post-training quantization and quantization-aware training on the generalization of Transformer language models. We present a new method called →

post-training quantization quantization-aware training transformer language models self-distilled quantization multilingual models

发现论文，激发创造

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

动态存储量化用于高效的 Transformer 训练

本文提出一种新颖的动态存储量化策略，Dynamic Stashing Quantization（DSQ），旨在减少内存操作，并享受低精度训练的其他好处，比如减少运算成本，通过在两个翻译任务和三个分类任务上的研究表明，DSQ 在 IWSLT17 上将算术操作的数量降低了 20.95 倍，并将 DRAM 操作数量降低了 2.55 倍，这为大语言模型在设备学习中的部署提供了解决方案。

Mar, 2023

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

触不得的易碎品：对比量化和蒸馏的稳定性以发展轻量低资源机器翻译模型

本文研究了利用共享学习通过跨多语言模型实现低资源语种机器翻译的方法，探讨了知识蒸馏和后训练量化等压缩模型的技术，并发现后训练量化在所有语种中表现更加稳定。

Oct, 2022

理解和克服高效 Transformer 量化的挑战

本文探讨了 Transformer 模型的量化问题，并给出了三种解决方法，其中一种基于 embedding group 的量化方法建立了新的量化模型，该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT，我们准确评估了这些方法的有效性，并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法，以实现更大的内存节省。

Sep, 2021

利用量化噪音进行极限模型压缩的训练

本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题，将讨论延伸量化感知训练的方法，实现了仅在每个前向传递过程中量化不同的一组随机权重，从而利用 SE 残差正向时间传递的无偏梯度实现极端压缩的目的，并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。

Apr, 2020

潜在扩散模型的高效量化策略

本研究提出了一种高效的量化策略，利用信噪比（SQNR）作为评估指标，将相对量化噪声视为噪声，识别模型中的敏感部分，并提出了既包括全局策略又包括局部策略的高效量化方法。实验结果表明，实施全局和局部策略能够高效地量化并有效地压缩 LDMs。

Dec, 2023

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

语言任务后训练量化方法的实证评估

通过分别实验评估了三种量化方法（LQ，ACIQ 和 OCS）对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位，并在 GLUE 基准测试中保持 98％和 96％的性能，为资源受限环境中模型调整提供指导。

Oct, 2022