统一而有效的集成知识蒸馏

Apr, 2022

Unified and Effective Ensemble Knowledge Distillation

Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang

TL;DR本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Abstract

ensemble knowledge distillation can extract knowledge from multiple teacher models and encode it into a single student model. Many existing methods learn and distill the student model on labeled data only. However, the

ensemble knowledge distillation teacher models unlabeled data distillation loss sample hardness

发现论文，激发创造

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

自监督语音模型的集成知识蒸馏

本文提出了一种多自监督语音模型集成的方法，通过使用层次平均聚合不同教师模型的表示，并为学生模型提出了多重预测头方法，从而大大提高了四个下游语音处理任务的性能，并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。

Feb, 2023

重复使用教师分类器的知识蒸馏

使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距，通过使用预先训练的教师模型的判别分类器进行学生推断，并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配，从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。

Mar, 2022

在线集成模型压缩技术 —— 基于知识蒸馏

本文提出了一种新颖的基于知识蒸馏的模型压缩框架，在学生集成中启用了同时学习的知识蒸馏，并在压缩的学生模型上蒸馏同时学到的集成知识，该方法在不需要预训练权重的情况下同时训练了压缩学生和集成教师。该方法可以交付多个压缩的学生，并且使用我们的框架，可以以高效和灵活的方式适应不同场景。实验结果表明，使用我们的框架，一个压缩率达 97% 的 ResNet110 学生模型在 CIFAR100 数据集上相对精度提高了 10.64％，类似地，一个压缩率达 95％的 DenseNet-BC （k = 12）模型相对精度提高了 8.17％。

Nov, 2020

异构模型的 Top-K 推荐中的蒸馏

本研究提出了一种名为 HetComp 的知识蒸馏框架，用于将异构模型的整体知识转移给一个轻量级模型，以减少资源成本和推理延迟，该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息，并通过全面实验表明该框架能够显著提高精度和泛化性能。

Mar, 2023

针对知识蒸馏的学生友好型教师网络学习

本文提出一种新颖的知识蒸馏方法，该方法旨在学习对学生友好的教师模型以实现知识传递，并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。

Feb, 2021

置信度感知的多教师知识蒸馏

该研究提出了一种自适应分配逐样本可靠度的方法，以每个教师的预测可信度来稳定知识转移过程，并结合中间层来提高学生成绩，在不同的教师 - 学生架构下，优于所有其他现有方法。

Dec, 2021

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

Avatar 知识蒸馏：自我集成教师模式与不确定性

本文提出一种新的知识蒸馏方法 ——Avatar Knowledge Distillation (AKD)，通过生成因扰动转化而得的不同推理集合模型（Avatars）来协助学生模型更有效的学习，同时提出了一种基于推理模型差异的不确定性感知因素，以适应地调整 Avatars 的贡献，这种方法在不增加额外计算成本的前提下，将目标检测的平均精度提高了 0.7 AP，并将语义分割的平均 IoU 提高了 1.83。

May, 2023