基于 BERT 的问答模型的结构化剪枝

Oct, 2019

基于 BERT 的问答模型的结构化剪枝

Structured Pruning of a BERT-based Question Answering Model

J.S. McCarley, Rishav Chakravarti, Avirup Sil

TL;DR本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩，使用结构化剪枝和专门化蒸馏相结合的方法，实现了在保持高精度的同时速度大幅提升。

Abstract

The recent trend in industry-setting natural language processing (NLP) research has been to operate large %scale pretrained language models like bert under strict computational limits. While most →

natural language processing bert roberta model compression structured pruning

发现论文，激发创造

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

硬件友好的块结构剪枝优化 Transformer 大规模语言表示

本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术，通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率，同时实验表明该方法适用于迁移到资源受限的边缘设备上。

Sep, 2020

快速 Transformer 的块剪枝

本文提出了一种针对小型、快速模型的块删剪方法，可同时考虑任何大小的块并将其结构整合到微调的移动删剪范例中。这种方法可以学习删剪出底层模型的完整组件，包括注意头，比如，实验结果在速度和大小上与精简模型相比相当有竞争力，SQuAD v1 上的 2.4 倍速度、74％更小的 BERT，F1 减少 1%。

Sep, 2021

Sparse*BERT：稀疏模型具有鲁棒性

本文研究了使用渐进式非结构化剪枝模型进行领域迁移和任务迁移的有效性，结果表明，使用泛领域蒙版语言模型进行预训练的模型可以在不需要大量超参数调整或特殊方法的情况下，成功应用于新领域和任务，同时表明使用非结构化剪枝技术的推断速度与参数数量大幅减少

May, 2022

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

无梯度结构剪枝与未标记数据

本文提出一种基于无标签数据的梯度无关结构裁剪框架，能够在不降低准确度的情况下，显著地减少预训练模型的计算成本，从而提高大型语言模型的推理效率。

Mar, 2023

最优 BERT 外科医生：可扩展和精确的二阶修剪方法，适用于大型语言模型

本文研究了 Transformer-based 语言模型的压缩方法，提出了基于 oBERT 的权重剪枝方法并将其应用在 BERT 模型的训练和 fine-tuning 中，同时利用多种压缩方法得到高压缩模型并在边缘设备上进行了部署。

Mar, 2022

高效自动语音识别的精准结构化剪枝

本论文提出了一种新的压缩策略，利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本，同时保持高识别性能。该方法优于所有剪枝基线，在 LibriSpeech 基准测试中实现了 50％的模型大小减少和 28％的推理成本减少，同时最小化了性能损失。

May, 2023

结构化剪枝学习紧凑而精确的模型

提出 CoFi（粗细粒度剪枝）方法，该方法结合了粗细粒度模块的剪枝决策，并采用分层蒸馏策略将知识从未剪枝模型转移到已剪枝模型，使模型同时拥有与蒸馏方法相当的精度和延迟优势，而无需使用无标注数据。在 GLUE 和 SQuAD 数据集上的实验表明，CoFi 方法在速度和精度方面相对于以前的剪枝和蒸馏方法具有更高的效率和效果。

Apr, 2022

面向任务的语音表示模型的结构化剪枝

本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题，并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型，超越 Wav2vec2.0 基准模型的表现，且具有 72% 更少的参数和两倍的推理速度。

Jun, 2023