压缩 BERT:研究权重剪枝对迁移学习的影响
本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。
Apr, 2021
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。
Nov, 2021
本文提出了一种新的模型适应策略 —— 剪枝适应,将神经模型预先训练的连接进行修剪以优化目标任务的性能,在剩余的连接中保留原有权重;我们将剪枝适应表述为具有可区分损失的优化问题,并提出了一种有效的算法来修剪模型。结果表明,在与微调完整模型相比产生类似性能的情况下,我们的方法可以剪枝 BERT 高达 50%的权重。
May, 2021
通过对 Transformer 架构进行参数剪枝的优化策略,通过广泛实验和超参数选择,研究发现可以在不牺牲性能的情况下显著减少模型大小,并改善通用性能,从而在深度学习应用方面实现更可扩展和环境友好的方式。
Oct, 2023
通过剪枝方法,本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献,并观察剪枝对下游 GLUE 任务的影响,结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40%而保持最多 98%的原始性能,并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。
Apr, 2020
通过对 mBERT 进行修剪,我们 quantifying 它的鲁棒性和逐层理解其重要性,结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中,修剪会导致准确性下降,这表明跨语言转移的鲁棒性较低。此外,编码器层的重要性受语言族和预训练语料大小的影响。
Sep, 2021
本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩,使用结构化剪枝和专门化蒸馏相结合的方法,实现了在保持高精度的同时速度大幅提升。
Oct, 2019
本文研究了 Transformer-based 语言模型的压缩方法,提出了基于 oBERT 的权重剪枝方法并将其应用在 BERT 模型的训练和 fine-tuning 中,同时利用多种压缩方法得到高压缩模型并在边缘设备上进行了部署。
Mar, 2022
压缩技术对小规模数据语言模型的效率和效果具有显著改善作用,证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。
Apr, 2024