基于 BERT 的问答模型的结构化剪枝
本文提出了一种针对 BERT 模型的自动混合精度量化框架,可以在子组水平同时进行量化和修剪,实现了压缩模型和保持同样性能的目标,并结合 DistilBERT 等方法获得了极轻量级模型。
Dec, 2021
本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术,通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率,同时实验表明该方法适用于迁移到资源受限的边缘设备上。
Sep, 2020
本文提出了一种针对小型、快速模型的块删剪方法,可同时考虑任何大小的块并将其结构整合到微调的移动删剪范例中。这种方法可以学习删剪出底层模型的完整组件,包括注意头,比如,实验结果在速度和大小上与精简模型相比相当有竞争力,SQuAD v1 上的 2.4 倍速度、74% 更小的 BERT,F1 减少 1%。
Sep, 2021
本文研究了使用渐进式非结构化剪枝模型进行领域迁移和任务迁移的有效性,结果表明,使用泛领域蒙版语言模型进行预训练的模型可以在不需要大量超参数调整或特殊方法的情况下,成功应用于新领域和任务,同时表明使用非结构化剪枝技术的推断速度与参数数量大幅减少
May, 2022
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。
Nov, 2021
本文研究了 Transformer-based 语言模型的压缩方法,提出了基于 oBERT 的权重剪枝方法并将其应用在 BERT 模型的训练和 fine-tuning 中,同时利用多种压缩方法得到高压缩模型并在边缘设备上进行了部署。
Mar, 2022
本论文提出了一种新的压缩策略,利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本,同时保持高识别性能。该方法优于所有剪枝基线,在 LibriSpeech 基准测试中实现了 50%的模型大小减少和 28%的推理成本减少,同时最小化了性能损失。
May, 2023
提出 CoFi(粗细粒度剪枝)方法,该方法结合了粗细粒度模块的剪枝决策,并采用分层蒸馏策略将知识从未剪枝模型转移到已剪枝模型,使模型同时拥有与蒸馏方法相当的精度和延迟优势,而无需使用无标注数据。在 GLUE 和 SQuAD 数据集上的实验表明,CoFi 方法在速度和精度方面相对于以前的剪枝和蒸馏方法具有更高的效率和效果。
Apr, 2022
本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题,并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型,超越 Wav2vec2.0 基准模型的表现,且具有 72% 更少的参数和两倍的推理速度。
Jun, 2023