BERT 自动混合精度量化搜索

Dec, 2021

Automatic Mixed-Precision Quantization Search of BERT

Changsheng Zhao, Ting Hua, Yilin Shen, Qian Lou, Hongxia Jin

TL;DR本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Abstract

pre-trained language models such as bert have shown remarkable effectiveness in various natural language processing tasks. However, these models usually contain millions of parameters, which prevents them from pr

pre-trained language models model compression quantization knowledge distillation bert

发现论文，激发创造

自然语言任务上结合压缩的乘法尺度缩放

本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪，发现量化和知识蒸馏提供了比修剪更大的好处，同时多种方法的组合具有协同减小模型大小的效果。

Aug, 2022

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

CPU 上的快速 DistilBERT

本文介绍了一种新的在 CPU 上创建和运行快速 Transformer 模型的流水线，利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术，通过优化稀疏和量化操作库的运行时引擎来提高推理效率，创造了一个 Fast DistilBERT 模型，其通过问题回答 SQuADv1.1 基准测试表现良好，性能比现有的 Neural Magic's DeepSparse 运行时性能提高了高达 50%，比 ONNX 计算时性能提升了最多 4.1 倍。

Oct, 2022

基于蒸馏和量化的模型压缩

本文提出了两种新的模型压缩方法：量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明，在资源受限的环境中，量化浅层神经网络可以达到与全精度模型相似的准确性水平，同时提供数量级压缩和推断加速。

Feb, 2018

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

基于 BERT 的问答模型的结构化剪枝

本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩，使用结构化剪枝和专门化蒸馏相结合的方法，实现了在保持高精度的同时速度大幅提升。

Oct, 2019

通过量化实现生成预训练语言模型的压缩

本文介绍了一种基于量化的压缩生成式语言模型的方法，该方法使用了基于 token 的对比 distillation 技术学习可区分的单词嵌入，并提出了一个基于模块的动态缩放技术，适应不同模块的量化器，实验结果表明该方法在各种任务上性能优于基准方法，并且实现了 14.4x 和 13.4x 的压缩率，与全精度模型具有可比性。

Mar, 2022

DQ-BART: 联合蒸馏和量化的高效序列转序列模型

本文针对预训练模型在资源受限情况下，因占用大量内存和高延迟而面临的挑战，提出联合蒸馏和量化的方法，成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比，而性能相对于完整精度版本并没有明显下降，并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析，此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。

Mar, 2022

一次性权重耦合学习的无需重新训练的模型量化

通过一种一次性训练 - 搜索范式，本文研究了混合精度模型压缩的问题，并提出了一种动态冻结和信息失真缓解技术来优化位宽配置和性能下降。

Jan, 2024