元学习的自适应多教师知识蒸馏

Jun, 2023

Adaptive Multi-Teacher Knowledge Distillation with Meta-Learning

Hailin Zhang, Defang Chen, Can Wang

TL;DR本文提出了自适应多教师知识蒸馏与元学习，以指导学生从量身定制的集成教师中获得适当的知识。通过元权重网络的辅助，将输出层和中间层中多样但兼容的教师知识联合利用，以增强学生的表现。在多个基准数据集上进行的广泛实验验证了本方法的有效性和灵活性。

Abstract

multi-teacher knowledge distillation provides students with additional supervision from multiple pre-trained teachers with diverse information sources. Most existing methods explore different weighting strategies to obtain a powerful →

multi-teacher knowledge distillation adaptive meta-learning ensemble teacher student performance

发现论文，激发创造

自适应多教师多层级知识蒸馏

我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Mar, 2021

BERT 学会教学：元学习的知识蒸馏

本研究提出了用元学习结合知识蒸馏的方法（MetaDistil），可以在固定教师网络期间更好地向学生网络转移知识。在多个实验基准上，MetaDistil 可以比传统的知识蒸馏算法产生更显著的改进，并且对不同的学生容量和超参数的选择不太敏感，有助于在不同的任务和模型上使用知识蒸馏。

Jun, 2021

置信度感知的多教师知识蒸馏

该研究提出了一种自适应分配逐样本可靠度的方法，以每个教师的预测可信度来稳定知识转移过程，并结合中间层来提高学生成绩，在不同的教师 - 学生架构下，优于所有其他现有方法。

Dec, 2021

元知识蒸馏

本文提出了一种元知识蒸馏（MKD）方法，利用可学习的元温度参数进行元学习，通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏（KD）的退化问题，从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。

Feb, 2022

Meta-KD: 跨领域语言模型压缩的元知识蒸馏框架

利用领域间的可转移知识，我们提出了一种元知识蒸馏 (Meta-KD) 框架，将初始的深度预训练模型压缩为体积更小的单域学生模型，并在多个 NLP 任务上进行了实验验证。

Dec, 2020

MTKD：图像超分辨率的多教师知识蒸馏

我们提出了一种新颖的多教师知识蒸馏（MTKD）框架，专门用于图像超分辨率，通过结合和增强多个教师模型的输出来指导紧凑的学生网络的学习过程，并通过在空间和频率域中观察差异来优化训练过程，从而在超分辨率性能上实现了明显的改善。

Apr, 2024

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

针对知识蒸馏的学生友好型教师网络学习

本文提出一种新颖的知识蒸馏方法，该方法旨在学习对学生友好的教师模型以实现知识传递，并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。

Feb, 2021

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022