DQ-BART: 联合蒸馏和量化的高效序列转序列模型

ACLMar, 2022

DQ-BART: 联合蒸馏和量化的高效序列转序列模型

DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization

Zheng Li, Zijian Wang, Ming Tan, Ramesh Nallapati, Parminder Bhatia...

TL;DR本文针对预训练模型在资源受限情况下，因占用大量内存和高延迟而面临的挑战，提出联合蒸馏和量化的方法，成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比，而性能相对于完整精度版本并没有明显下降，并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析，此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。

Abstract

Large-scale pre-trained sequence-to-sequence models like BART and T5 achieve state-of-the-art performance on many generative NLP tasks. However, such models pose a great challenge in resource-constrained scenarios owing to their large memory requirements and high latency. To alleviate this issue, we propose to jointly distill and quantize the model, where kn

pre-trained models distillation quantization generative tasks compression ratio

发现论文，激发创造

基于蒸馏和量化的模型压缩

本文提出了两种新的模型压缩方法：量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明，在资源受限的环境中，量化浅层神经网络可以达到与全精度模型相似的准确性水平，同时提供数量级压缩和推断加速。

Feb, 2018

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

KDLSQ-BERT: 一种结合知识蒸馏和学习步长量化的量化 BERT 模型

提出了一种基于 KDLSQ-BERT 的新型量化方法，将知识蒸馏与学习步长量化结合，可在保持精度的同时减小模型大小并提高推理性能，实现了 14.9 倍的压缩率，并且在各种比特（如 2 比特至 8 比特）的量化情况下表现出色。

Jan, 2021

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

数据集量化

用于训练任何神经网络架构的新的数据集压缩方法 (DQ) 能够通过压缩大规模数据集生成精简小数据集，实现了无损模型训练的最新压缩比，可用于视觉任务和语言任务。

Aug, 2023

触不得的易碎品：对比量化和蒸馏的稳定性以发展轻量低资源机器翻译模型

本文研究了利用共享学习通过跨多语言模型实现低资源语种机器翻译的方法，探讨了知识蒸馏和后训练量化等压缩模型的技术，并发现后训练量化在所有语种中表现更加稳定。

Oct, 2022

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

通过量化实现生成预训练语言模型的压缩

本文介绍了一种基于量化的压缩生成式语言模型的方法，该方法使用了基于 token 的对比 distillation 技术学习可区分的单词嵌入，并提出了一个基于模块的动态缩放技术，适应不同模块的量化器，实验结果表明该方法在各种任务上性能优于基准方法，并且实现了 14.4x 和 13.4x 的压缩率，与全精度模型具有可比性。

Mar, 2022

CPU 上的快速 DistilBERT

本文介绍了一种新的在 CPU 上创建和运行快速 Transformer 模型的流水线，利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术，通过优化稀疏和量化操作库的运行时引擎来提高推理效率，创造了一个 Fast DistilBERT 模型，其通过问题回答 SQuADv1.1 基准测试表现良好，性能比现有的 Neural Magic's DeepSparse 运行时性能提高了高达 50%，比 ONNX 计算时性能提升了最多 4.1 倍。

Oct, 2022

模块化 Transformer：将 Transformer 压缩为模块化层以进行灵活高效的推理

本文提出了 Modular Transformers 框架，用于灵活的序列到序列模型压缩，通过模块化编码器 - 解码器并进行知识蒸馏，可以实现灵活的压缩比率从 1.1x 到 6x，并且在保持相对性能不变的情况下，可以根据需要灵活组装模块化层。

Jun, 2023