自适应多教师多层级知识蒸馏

Mar, 2021

Adaptive Multi-Teacher Multi-level Knowledge Distillation

Yuang Liu, Wei Zhang, Jun Wang

TL;DR我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Abstract

knowledge distillation~(KD) is an effective learning paradigm for improving the performance of lightweight student networks by utilizing additional supervision knowledge distilled from teacher networks. Most pion

knowledge distillation multi-teacher learning adaptive learning student network performance

发现论文，激发创造

元学习的自适应多教师知识蒸馏

本文提出了自适应多教师知识蒸馏与元学习，以指导学生从量身定制的集成教师中获得适当的知识。通过元权重网络的辅助，将输出层和中间层中多样但兼容的教师知识联合利用，以增强学生的表现。在多个基准数据集上进行的广泛实验验证了本方法的有效性和灵活性。

Jun, 2023

置信度感知的多教师知识蒸馏

该研究提出了一种自适应分配逐样本可靠度的方法，以每个教师的预测可信度来稳定知识转移过程，并结合中间层来提高学生成绩，在不同的教师 - 学生架构下，优于所有其他现有方法。

Dec, 2021

BERT 学会教学：元学习的知识蒸馏

本研究提出了用元学习结合知识蒸馏的方法（MetaDistil），可以在固定教师网络期间更好地向学生网络转移知识。在多个实验基准上，MetaDistil 可以比传统的知识蒸馏算法产生更显著的改进，并且对不同的学生容量和超参数的选择不太敏感，有助于在不同的任务和模型上使用知识蒸馏。

Jun, 2021

M2KD: 多模型、多层次知识蒸馏用于增量学习

本文提出一种多模型和多级别知识蒸馏策略，通过直接利用之前的模型快照和辅助蒸馏等方式，在保留旧类知识的同时提升整体性能，有效解决了旧类性能下降的问题。

Apr, 2019

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

MTKD：图像超分辨率的多教师知识蒸馏

我们提出了一种新颖的多教师知识蒸馏（MTKD）框架，专门用于图像超分辨率，通过结合和增强多个教师模型的输出来指导紧凑的学生网络的学习过程，并通过在空间和频率域中观察差异来优化训练过程，从而在超分辨率性能上实现了明显的改善。

Apr, 2024

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

交互式知识蒸馏

本研究提出了一种基于交互式教学策略的 IA KD 框架，旨在通过教师与学生网络之间的交互，提高知识蒸馏的效率，实现高性能的图像分类任务，进而推动知识蒸馏技术的发展。

Jul, 2020

知识浓缩蒸馏

本文提出基于动态学习的知识凝聚蒸馏方法 (KCD)，通过期望最大化 (EM) 框架从教师的知识向学生转移紧凑的知识集，以有效增强学生模型的性能和蒸馏效率。

Jul, 2022