通过自我集成和自我蒸馏提高 BERT 微调

Feb, 2020

通过自我集成和自我蒸馏提高 BERT 微调

Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation

Yige Xu, Xipeng Qiu, Ligao Zhou, Xuanjing Huang

TL;DR本文提出了两种有效机制，即自我集成和自我蒸馏来改进 BERT 的微调，实验证明这些方法可以显着提高 BERT 的适应性。

Abstract

fine-tuning pre-trained language models like bert has become an effective way in nlp and yields state-of-the-art results on many downstrea

bert fine-tuning self-ensemble self-distillation nlp

发现论文，激发创造

Transformer 进一步预训练的自蒸馏方法

本文提出了自蒸馏（self-distillation）作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题，最终在图像分类和文本分类任务中优于相关基线。

Sep, 2022

自我蒸馏：填补语言模型微调中的分布差距

使用自我蒸馏微调（SDFT）方法，本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距，解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战，并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时，在下游任务上实现了与传统微调相当或更优的性能，并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。

Feb, 2024

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019

FastBERT: 自适应推理时间的自蒸馏 BERT 模型

本文提出了一种新颖的速度可调的 FastBERT 语言模型，通过采用自适应推理时间和独特的自蒸馏机制，在保证性能的同时提高了计算效率，并在 12 个英文和中文数据集上取得了良好的结果。

Apr, 2020

预训练模型细调的动态纠正自蒸馏

我们提出了一种有效的动态纠正自蒸馏方法来改善预训练语言模型的微调过程，通过迭代的自我纠正过程显著增强了预训练语言模型的微调能力，并在各种下游任务中提高了性能和鲁棒性。

Dec, 2023

BAM! 自然语言理解的再生多任务网络

使用知识蒸馏和教师退火的方法，可帮助多任务神经网络训练并超越单任务神经网络，文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。

Jul, 2019

从 BERT 中提炼出特定任务的知识并转化为简单的神经网络

本文主要研究神经网络中的自然语言处理，通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务，证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下，与 ELMo 相比获得可媲美的结果。

Mar, 2019

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019