稀疏渐进蒸馏：在预训练和微调范式下解决过拟合问题

Oct, 2021

稀疏渐进蒸馏：在预训练和微调范式下解决过拟合问题

Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetune Paradigm

Shaoyi Huang, Dongkuan Xu, Ian E.H. Yen, Yijue Wang, Sung-en Chang...

TL;DR本研究针对 pretrain-and-finetune 模式下的 transformer-based 语言模型，提出了一个新的剪枝策略，即基于误差边界的渐进式知识蒸馏，试图通过减少过拟合的风险来提高模型剪枝的效率，结果表明我们的方法在 GLUE 测试集中表现优于竞争对手。

Abstract

Conventional wisdom in pruning transformer-based language models is that pruning reduces the model expressiveness and thus is more likely

pruning transformer-based language models pretrain-and-finetune paradigm overfitting progressive knowledge distillation

发现论文，激发创造

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

自然语言理解中模型蒸馏和剪枝的稳健性挑战

本研究分析了两种流行的模型压缩技术对于预训练语言模型鲁棒性和泛化能力的影响，并且在样本不确定性的基础上提出了一种偏见缓解框架，用于提高模型的泛化能力。

Oct, 2021

快速 Transformer 的块剪枝

本文提出了一种针对小型、快速模型的块删剪方法，可同时考虑任何大小的块并将其结构整合到微调的移动删剪范例中。这种方法可以学习删剪出底层模型的完整组件，包括注意头，比如，实验结果在速度和大小上与精简模型相比相当有竞争力，SQuAD v1 上的 2.4 倍速度、74％更小的 BERT，F1 减少 1%。

Sep, 2021

Transformer 进一步预训练的自蒸馏方法

本文提出了自蒸馏（self-distillation）作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题，最终在图像分类和文本分类任务中优于相关基线。

Sep, 2022

有阅读素养的学生学习更好：关于预训练紧凑模型的重要性

本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系，提出了一种简单而有效的预训练蒸馏算法，分析了模型大小和无标记任务数据属性对其的影响。

Aug, 2019

结构化剪枝学习紧凑而精确的模型

提出 CoFi（粗细粒度剪枝）方法，该方法结合了粗细粒度模块的剪枝决策，并采用分层蒸馏策略将知识从未剪枝模型转移到已剪枝模型，使模型同时拥有与蒸馏方法相当的精度和延迟优势，而无需使用无标注数据。在 GLUE 和 SQuAD 数据集上的实验表明，CoFi 方法在速度和精度方面相对于以前的剪枝和蒸馏方法具有更高的效率和效果。

Apr, 2022

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

我们提出了一种针对小模型的训练方法，不需要吸收预训练的成本，却能获得相同的性能，并且通过知识蒸馏与对比学习的连接，能够有效地降低计算成本，提高训练速度，同时通过数据增强进一步改善性能。

Apr, 2024

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

Transformer 模型的快速后训练剪枝框架

本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架，无需重新训练即可保持高准确度，在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升，在单个 GPU 上不到 3 分钟即可完成模型修剪。

Mar, 2022