基于质数感知的自适应蒸馏

ECCVAug, 2020

Prime-Aware Adaptive Distillation

Youcai Zhang, Zhonghao Lan, Yuchen Dai, Fangao Zeng, Yan Bai...

TL;DR本研究提出了一种基于适应样本加权和不确定性学习的智能知识蒸馏方法 PAD，用于改善学生网络的表现。通过 10 个师生组合在 6 个数据集上的测试，PAD 显着提高了现有蒸馏方法的性能，并优于最新的最先进的方法。

Abstract

knowledge distillation(KD) aims to improve the performance of a student network by mimicing the knowledge from a powerful teacher network. Existing methods focus on studying what knowledge should be transferred and treat all samples equally during training. This paper introduces the ad

knowledge distillation adaptive sample weighting uncertainty learning pad performance improvement

发现论文，激发创造

自适应点位知识蒸馏

本研究提出新的知识蒸馏策略 SAKD，通过自适应地确定教师网络中的蒸馏点，进一步改进现有的蒸馏方法，在 10 个最先进的蒸馏器上进行了广泛的实验来证明其有效性。

May, 2022

AdaDistill：用于深度人脸识别的自适应知识蒸馏

使用自适应知识蒸馏方法 AdaDistill 在深度人脸识别中，通过利用高性能教师模型的知识来提高紧凑学生模型的性能。AdaDistill 将知识蒸馏概念嵌入到带有蒸馏类中心的边际惩罚 softmax 损失中，通过在训练迭代中控制学生的学习能力进展来相对调整蒸馏的知识，无需调整任何超参数。大量实验证明了 AdaDistill 可以增强学生的判别学习能力，并在多个具有挑战性的基准测试中展示了对各种最先进竞争者的优越性。

Jul, 2024

AdaKD：使用自适应损失加权的 ASR 模型动态知识蒸馏

本文提出了一种自适应知识蒸馏技术，通过课程学习的启发，以实例级别自适应地加权损失，并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。

May, 2024

自适应多教师多层级知识蒸馏

我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Mar, 2021

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

在线多样化同行中的知识蒸馏

本文提出了一种双层蒸馏网络框架 OKDDip，其中包括多个辅助对等体和一个领导群体，辅助对等体通过注意力机制获取自己的预测目标，来作为组群内部的目标进行蒸馏学习，然后再将知识传递给领导群体，实现知识转移。实验结果表明，该框架在训练或推理复杂度上不会牺牲性能，相较于现有方法，可以提供更好的蒸馏效果。

Dec, 2019

尊重知识蒸馏中的转移差距

该研究论文提出了一种新的逆概率加权蒸馏 (IPWD) 方法，用于解决知识蒸馏时两个领域之间数据分布不同的问题，该方法通过对样本的倾向得分估计进行加权，以弥补非独立同分布的数据中低频样本的不足，有效提高了知识蒸馏的准确度。

Oct, 2022

数据剪枝中的知识提取

通过集成知识蒸馏技术，本文探讨在数据修剪过程中的应用，证明了使用简单随机修剪方法优于复杂的修剪方法，并研究了修剪程度与知识蒸馏权重的关系，以及教师网络规模对准确性的影响。

Mar, 2024

不同领域之间的直接蒸馏

基于知识蒸馏，提出了一种新的单阶段方法 “不同领域之间的直接蒸馏”(4Ds)，通过可学习的适配器和融合 - 激活机制，实现了从教师网络到学生网络的跨领域知识转移，取得了可靠的学生网络性能并超过了现有方法。

Jan, 2024

加权平均改善领域偏移下的知识蒸馏

知识蒸馏是一种强大的模型压缩技术，该论文通过在域偏移下对权重平均技术的应用，桥接了知识蒸馏和域泛化的研究领域，并提出了一种简化的权重平均策略，称为加权平均知识蒸馏（WAKD）方法。

Sep, 2023