预训练语言模型的梯度知识蒸馏

Nov, 2022

Gradient Knowledge Distillation for Pre-trained Language Models

Lean Wang, Lei Li, Xu Sun

TL;DR本文提出了一种新的知识蒸馏方法（GKD），通过引入梯度对齐这一重要的知识源，以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明，使用GKD比先前的知识蒸馏方法效果更好。

Abstract

knowledge distillation (KD) is an effective framework to transfer knowledge from a large-scale teacher to a compact yet well-performing student. Previous KD practices for pre-trained language models mainly transf

发现论文，激发创造

Meta-KD: 跨领域语言模型压缩的元知识蒸馏框架

利用领域间的可转移知识，我们提出了一种元知识蒸馏 (Meta-KD) 框架，将初始的深度预训练模型压缩为体积更小的单域学生模型，并在多个 NLP 任务上进行了实验验证。

Dec, 2020

预训练语言模型的动态知识蒸馏

本文研究知识蒸馏的动态方法是否能根据学生模型的能力，对三个方面进行调整，包括教师模型的采用，数据选择和蒸馏目标的调整，实验结果表明，动态知识蒸馏是有前途的，并提供了关于更有效KD方法的未来方向的讨论。

Sep, 2021

高效参数和适合学生的知识蒸馏

本文提出一种参数高效、学生友好的知识蒸馏方法PESF-KD，通过更新相对较少的参数，实现高效、充分的知识转移，其中引入了适配器模块，将教师的输出转化为合适平滑度的软标签。实验表明，与在线蒸馏方法相比，PESF-KD 能够显著降低培训成本，同时获得有竞争力的结果。

May, 2022

知识浓缩蒸馏

本文提出基于动态学习的知识凝聚蒸馏方法(KCD)，通过期望最大化(EM)框架从教师的知识向学生转移紧凑的知识集，以有效增强学生模型的性能和蒸馏效率。

Jul, 2022

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员-评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在GLUE数据集上优于常规基线模型。

Feb, 2023

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于Integrated Gradients的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的token-level解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在GLUE基准测试中具有比其他现有方法更好的性能。

May, 2023

针对自回归序列模型的广义知识蒸馏

本论文提出了一种推广的知识蒸馏方法，旨在解决在训练和生成阶段输出序列之间的差异，并通过优化替代的发散方法来处理模型不充分的问题。实验证明，Generalized Knowledge Distillation (GKD) 在压缩生成语言模型时表现优异。

Jun, 2023

交流式通信：通过提炼预训练知识向下游模型传递

通过交互式通信过程扩展了知识蒸馏技术，帮助下游任务的学生有效地从预训练的基础模型中学习，并在基准数据集上进行实验证明我们的通信机制优于最先进的蒸馏技术。

Oct, 2023

大型语言模型的预训练蒸馏：设计空间探索

本文解决了大型语言模型（LLMs）知识蒸馏在预训练阶段的应用问题。提出了名为预训练蒸馏（PD）的新方法，并通过系统的设计空间探索，发现更有效的配置，尤其是较大的学生模型在预训练蒸馏中受益更多。此研究为未来的预训练蒸馏实践提供了指导。

Oct, 2024