BERT 知识蒸馏：权重初始化和蒸馏目标对影响的实证研究

ACLMay, 2023

BERT 知识蒸馏：权重初始化和蒸馏目标对影响的实证研究

How to Distill your BERT: An Empirical Study on the Impact of Weight Initialisation and Distillation Objectives

Xinpeng Wang, Leonie Weissweiler, Hinrich Schütze, Barbara Plank

TL;DR本文评估了不同的中间层蒸馏方法在 BERT 模型的压缩上的效果，并发现使用注意力转移方法获得了最佳性能。同时，通过研究初始化学生模型时选择的优化层对任务特异性的蒸馏表现影响显著，尤其是在 QNLI 任务方面，初始学习率较低的教师模型层获得了显著的性能提升。我们为后续研究发布了我们的代码作为高效的基于 Transformer 的模型蒸馏框架。

Abstract

Recently, various intermediate layer distillation (ILD) objectives have been shown to improve compression of bert models via knowledge distillati

bert knowledge distillation attention transfer task-specific intermediate layer distillation

发现论文，激发创造

面向任务无关的 BERT 压缩的权重继承蒸馏

本文介绍了一种基于 Weight-Inherited Distillation (WID) 的知识蒸馏方法，通过直接从教师模型继承权重实现对学生模型的压缩，避免了传统方法中需要设计额外对齐损失的问题，实验结果表明 WID 在 GLUE 和 SQuAD 基准测试上的性能优于现有的知识蒸馏方法，并且可以在没有对齐损失的情况下学习到教师模型的注意力模式。

May, 2023

中间层蒸馏在压缩语言模型中的再次探讨：过拟合的角度

本文介绍了一种名为一致性正则化的中间层知识蒸馏方法，有效解决了其他中间层知识蒸馏方法容易过拟合的问题，并在模型蒸馏方面表现高效。

Feb, 2023

边际效用递减：探究 BERT 知识蒸馏的最少知识要求

本文提出了一种高效的知识蒸馏方法，能够压缩 BERT 模型而无需加载教师模型，并能够实现训练加速 2.7x ~ 3.4x。通过将 BERT 的隐藏知识分为深度、长度和宽度三个维度，该方法能够提取和蒸馏关键的隐藏状态知识，从而实现与大量蒸馏相同的性能提升。

Jun, 2021

BERT 模型的知识蒸馏改进：损失函数、映射方法和权重调整

本研究使用了 Transformer-based 模型（如 BERT、GPT 和 T5），并进行了知识蒸馏来进行模型压缩，特别关注 TinyBERT 学生模型。通过实验不同的损失函数、Transformer 层映射方法和注意力和表示损失的权重调整，评估了提出的方法在 GLUE 基准测试的若干下游任务上的效果，旨在提高知识蒸馏技术的效率和准确性，为各种自然语言处理任务的开发提供更高效和准确的模型。

Aug, 2023

哪个学生最好？针对任务特定 BERT 模型的综合知识蒸馏考试

本文研究使用知识蒸馏从 BERT 模型到各种学生模型（BiLSTM、CNN、BERT-Tiny、BERT-Mini 和 BERT-Small）对印尼语文本分类和序列标记进行实验研究，提出了效率高的知识蒸馏训练机制，并发现使用 BiLSTM 和 CNN 学生模型可以在性能和计算资源方面提供最好的平衡。

Jan, 2022

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的 token-level 解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。

May, 2023

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

ALP-KD: 基于注意力的层映射知识蒸馏

研究知识蒸馏在神经网络中的应用。提出了一种基于注意力机制的组合技术，通过将教师网络和学生网络的信息进行融合，并且考虑每层的重要性，在中间层进行蒸馏。实验表明，该技术能够优于其他现有的技术。

Dec, 2020

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

BERT 模型压缩的患者知识蒸馏

本研究提出了病人知识蒸馏方法，将原始大模型（老师）压缩成同样有效的轻型浅层网络（学生），以缓解大规模模型训练中的计算资源需求，并在多个 NLP 任务中获得改进的结果和培养效率的显著提高。

Aug, 2019