压缩 BERT：研究权重剪枝对迁移学习的影响

ACLFeb, 2020

压缩 BERT：研究权重剪枝对迁移学习的影响

Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning

Mitchell A. Gordon, Kevin Duh, Nicholas Andrews

TL;DR本文探讨使用权重剪枝压缩 BERT 模型对迁移学习的影响，研究结果发现，对于预训练模型进行低水平的剪枝不会对其迁移能力造成影响，而高水平的剪枝则会导致模型性能的下降。在指定任务中对 BERT 进行微调并不会对其剪枝产生帮助。因此，本文得出结论：可以在预训练期间对 BERT 进行一次剪枝并保持其性能。

Abstract

Pre-trained universal feature extractors, such as bert for natural language processing and VGG for computer vision, have become effective methods for improving deep learning models without requiring more labeled data. While effective, feature extractors like →

pre-trained feature extractors bert weight pruning pre-training loss transfer learning

发现论文，激发创造

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

剪枝的调适：BERT 的案例研究

本文提出了一种新的模型适应策略 —— 剪枝适应，将神经模型预先训练的连接进行修剪以优化目标任务的性能，在剩余的连接中保留原有权重；我们将剪枝适应表述为具有可区分损失的优化问题，并提出了一种有效的算法来修剪模型。结果表明，在与微调完整模型相比产生类似性能的情况下，我们的方法可以剪枝 BERT 高达 50％的权重。

May, 2021

修剪能否提高大型语言模型的效率？

通过对 Transformer 架构进行参数剪枝的优化策略，通过广泛实验和超参数选择，研究发现可以在不牺牲性能的情况下显著减少模型大小，并改善通用性能，从而在深度学习应用方面实现更可扩展和环境友好的方式。

Oct, 2023

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

多语言 BERT 中注意力头的可剪枝性

通过对 mBERT 进行修剪，我们 quantifying 它的鲁棒性和逐层理解其重要性，结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中，修剪会导致准确性下降，这表明跨语言转移的鲁棒性较低。此外，编码器层的重要性受语言族和预训练语料大小的影响。

Sep, 2021

基于 BERT 的问答模型的结构化剪枝

本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩，使用结构化剪枝和专门化蒸馏相结合的方法，实现了在保持高精度的同时速度大幅提升。

Oct, 2019

最优 BERT 外科医生：可扩展和精确的二阶修剪方法，适用于大型语言模型

本文研究了 Transformer-based 语言模型的压缩方法，提出了基于 oBERT 的权重剪枝方法并将其应用在 BERT 模型的训练和 fine-tuning 中，同时利用多种压缩方法得到高压缩模型并在边缘设备上进行了部署。

Mar, 2022

有限任务数据下的结构化剪枝迁移学习

结合结构化修剪和迁移学习的框架可减小大型预训练模型，并改善修剪模型在基线上的泛化性能。

Nov, 2023

当小的更小时会发生什么？探究对小数据预训练语言模型进行压缩的影响

压缩技术对小规模数据语言模型的效率和效果具有显著改善作用，证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。

Apr, 2024