预训练模型细调的动态纠正自蒸馏

Dec, 2023

预训练模型细调的动态纠正自蒸馏

Dynamic Corrective Self-Distillation for Better Fine-Tuning of Pretrained Models

Ibtihel Amara, Vinija Jain, Aman Chadha

TL;DR我们提出了一种有效的动态纠正自蒸馏方法来改善预训练语言模型的微调过程，通过迭代的自我纠正过程显著增强了预训练语言模型的微调能力，并在各种下游任务中提高了性能和鲁棒性。

Abstract

We tackle the challenging issue of aggressive fine-tuning encountered during the process of transfer learning of pre-trained language models

aggressive fine-tuning transfer learning pre-trained language models dynamic corrective self-distillation fine-tuning capability

发现论文，激发创造

自我蒸馏：填补语言模型微调中的分布差距

使用自我蒸馏微调（SDFT）方法，本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距，解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战，并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时，在下游任务上实现了与传统微调相当或更优的性能，并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。

Feb, 2024

基于预训练多模态大模型的动态自适应多尺度蒸馏，用于高效的跨模态表示学习

为了在计算资源有限的环境下部署高级多模态技术，我们提出了一种从预训练多模态大模型中动态自适应多尺度蒸馏的方法，通过仅使用输出特征和原始图像级信息来优化模型，显著降低复杂性和训练成本，实现了跨模态检索任务的最先进性能。

Apr, 2024

基于自蒸馏的微调方法拓展数据有限的扩散模型的表达能力

我们提出了自我蒸馏 Fine-Tuning 扩散模型（SDFT），通过利用在大型源数据集上预训练的扩散模型的多样特征，从源模型中提取出更一般的特征（形状、颜色等），少量的领域特定特征（纹理、细节等），以在目标数据集上进行知识传递且不干扰训练过程，以引导有限数据集上扩散模型的生成能力，从而增强了模型的表达能力，并在各种下游任务中显示出更好的生成能力。

Nov, 2023

Transformer 进一步预训练的自蒸馏方法

本文提出了自蒸馏（self-distillation）作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题，最终在图像分类和文本分类任务中优于相关基线。

Sep, 2022

通过自我集成和自我蒸馏提高 BERT 微调

本文提出了两种有效机制，即自我集成和自我蒸馏来改进 BERT 的微调，实验证明这些方法可以显着提高 BERT 的适应性。

Feb, 2020

DisCo: 基于蒸馏的学生模型联合训练用于半监督文本挖掘

DisCo 使用知识蒸馏从一个大的 PLM 中生成小的学生模型，采用一种新颖的共训练技术来优化多个小学生模型，以促进它们的半监督学习效果，并在半监督文本分类和摘要提取任务中得到了比线性基准模型 7.6 倍更小和 4.8 倍更快的推理速度，同时保持可比的性能。

May, 2023

自我蒸馏作为实例特定标签平滑化

通过实验证明，多代自蒸馏能够在一定程度上提高模型的性能，之所以会出现这种情况，部分原因在于教学者预测的多样性。我们提出了一种新的教师 - 学员训练解释，即估计自适应正则化，这使得标签平滑的预测不确定性和预测多样性同样重要。我们还提出了一种新的实例特定标签平滑方法，并提供了实验证明其在许多情况下优于传统标签平滑方法。

Jun, 2020

改善自监督语音处理模型在扭曲场景下的泛化性能

本文提出采用交叉失真映射和域对抗训练技术对自监督学习的语音预训练模型进行知识蒸馏，以缓解性能差距问题，具有较好的性能表现。

Oct, 2022

预训练语言模型的动态知识蒸馏

本文研究知识蒸馏的动态方法是否能根据学生模型的能力，对三个方面进行调整，包括教师模型的采用，数据选择和蒸馏目标的调整，实验结果表明，动态知识蒸馏是有前途的，并提供了关于更有效 KD 方法的未来方向的讨论。

Sep, 2021

图文检索的动态对比蒸馏

本研究提出了一种名为 DCD 的新型动态对比蒸馏框架，用于压缩大型 VLP 模型以改善跨模态图像文本检索（ITR）的效率和部署，其中涉及多模态对比学习、动态蒸馏等技术，实验证明在 MS-COCO 和 Flickr30K 基准上，将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。

Jul, 2022