AdaKD：使用自适应损失加权的 ASR 模型动态知识蒸馏

May, 2024

AdaKD：使用自适应损失加权的 ASR 模型动态知识蒸馏

AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting

Shreyan Ganguly, Roshan Nayak, Rakshith Rao, Ujan Deb, Prathosh AP

TL;DR本文提出了一种自适应知识蒸馏技术，通过课程学习的启发，以实例级别自适应地加权损失，并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。

Abstract

knowledge distillation, a widely used model compression technique, works on the basis of transferring knowledge from a cumbersome teacher model to a lightweight student model. The technique involves jointly optim

knowledge distillation model compression adaptive knowledge distillation curriculum learning instance-level loss functions

发现论文，激发创造

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的 token-level 解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。

May, 2023

自适应多教师多层级知识蒸馏

我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Mar, 2021

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

微型语音增强的两步知识蒸馏

借助知识蒸馏技术，我们提出了一种新的两步法来压缩 Tiny 语音增强模型，其中包括先用知识蒸馏目标进行预训练，然后切换到完全监督训练模式，同时提出了一种新的细粒度相似性保持 KD 损失函数，该方法在高压缩和低信噪比条件下表现出突出的改进，相对于基线，在输入信噪比为 - 5dB 和 63 倍压缩的情况下，信噪失真比分别提高了 0.9dB 和 1.1dB。

Sep, 2023

自回归语言模型的知识蒸馏再探讨

通过分析发现大型语言模型在教学学生模型时会导致性能下降，设计了一种自适应教学方法（ATKD）来改进知识蒸馏，并通过大量实验验证其在各种模型类型和规模上均能显著提高性能（平均得分增加至多 + 3.04%）。更重要的是，ATKD 能有效改善学生模型的泛化能力。

Feb, 2024

残差知识蒸馏

本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法，通过引入辅助器来进一步提炼知识，从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题，并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果，超过了现有方法的最新水平。

Feb, 2020

关系知识蒸馏

该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Apr, 2019

面向任务无关的 BERT 压缩的权重继承蒸馏

本文介绍了一种基于 Weight-Inherited Distillation (WID) 的知识蒸馏方法，通过直接从教师模型继承权重实现对学生模型的压缩，避免了传统方法中需要设计额外对齐损失的问题，实验结果表明 WID 在 GLUE 和 SQuAD 基准测试上的性能优于现有的知识蒸馏方法，并且可以在没有对齐损失的情况下学习到教师模型的注意力模式。

May, 2023

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023