Transformer 进一步预训练的自蒸馏方法

ICLRSep, 2022

Transformer 进一步预训练的自蒸馏方法

Self-Distillation for Further Pre-training of Transformers

Seanie Lee, Minki Kang, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi

TL;DR本文提出了自蒸馏（self-distillation）作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题，最终在图像分类和文本分类任务中优于相关基线。

Abstract

pre-training a large transformer model on a massive amount of unlabeled data and fine-tuning it on labeled datasets for diverse downstream tasks has proven to be a successful strategy, for a variety of vision and

pre-training transformer model self-distillation image classification text classification

发现论文，激发创造

通过自我集成和自我蒸馏提高 BERT 微调

本文提出了两种有效机制，即自我集成和自我蒸馏来改进 BERT 的微调，实验证明这些方法可以显着提高 BERT 的适应性。

Feb, 2020

MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩

本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏，提出了一种简单有效的压缩大型预训练模型的方法，同时引入了新的 “缩放点积” 深层自我注意知识，并在这个基础上设计了一个小留学生模型来减少参数量和延迟，实现了对 GLUE 质量基准测试的有效超越。

Feb, 2020

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

我们提出了一种针对小模型的训练方法，不需要吸收预训练的成本，却能获得相同的性能，并且通过知识蒸馏与对比学习的连接，能够有效地降低计算成本，提高训练速度，同时通过数据增强进一步改善性能。

Apr, 2024

基于自蒸馏的微调方法拓展数据有限的扩散模型的表达能力

我们提出了自我蒸馏 Fine-Tuning 扩散模型（SDFT），通过利用在大型源数据集上预训练的扩散模型的多样特征，从源模型中提取出更一般的特征（形状、颜色等），少量的领域特定特征（纹理、细节等），以在目标数据集上进行知识传递且不干扰训练过程，以引导有限数据集上扩散模型的生成能力，从而增强了模型的表达能力，并在各种下游任务中显示出更好的生成能力。

Nov, 2023

文本分类的对抗自监督无数据蒸馏

提出一种名为 AS-DFD 的新的两阶段无数据蒸馏方法，用于压缩大型基于 Transformer 的模型（例如 BERT），并且是第一个面向 NLP 任务设计的无数据蒸馏框架，在 Text Classification 数据集上验证了其有效性。

Oct, 2020

预训练模型摘要精馏

使用三种不同的压缩学生模型的方法（直接知识蒸馏、伪标签蒸馏和收缩和微调），对当前和过去的最先进的 PEGASUS 和 BART 模型进行压缩蒸馏，在 CNN / DailyMail 数据集上 SFT 方法表现最佳，在更抽象的 XSUM 数据集上伪标签蒸馏方法表现更好。

Oct, 2020

预训练模型细调的动态纠正自蒸馏

我们提出了一种有效的动态纠正自蒸馏方法来改善预训练语言模型的微调过程，通过迭代的自我纠正过程显著增强了预训练语言模型的微调能力，并在各种下游任务中提高了性能和鲁棒性。

Dec, 2023

自我蒸馏：填补语言模型微调中的分布差距

使用自我蒸馏微调（SDFT）方法，本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距，解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战，并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时，在下游任务上实现了与传统微调相当或更优的性能，并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。

Feb, 2024