Avatar 知识蒸馏：自我集成教师模式与不确定性

May, 2023

Avatar 知识蒸馏：自我集成教师模式与不确定性

Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with Uncertainty

Yuan Zhang, Weihua Chen, Yichen Lu, Tao Huang, Xiuyu Sun...

TL;DR本文提出一种新的知识蒸馏方法 ——Avatar Knowledge Distillation (AKD)，通过生成因扰动转化而得的不同推理集合模型（Avatars）来协助学生模型更有效的学习，同时提出了一种基于推理模型差异的不确定性感知因素，以适应地调整 Avatars 的贡献，这种方法在不增加额外计算成本的前提下，将目标检测的平均精度提高了 0.7 AP，并将语义分割的平均 IoU 提高了 1.83。

Abstract

knowledge distillation is an effective paradigm for boosting the performance of pocket-size model, especially when multiple teacher models are available, the student would break the upper limit again. However, it

knowledge distillation avatars teacher models uncertainty-aware factor dense prediction

发现论文，激发创造

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

自适应多教师多层级知识蒸馏

我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Mar, 2021

教学中的不确定性：释放目标检测知识蒸馏的潜力

提出一种基于特征的知识不确定性蒸馏范式，能够与现有的蒸馏方法无缝集成，通过蒙特卡洛 dropout 技术引入知识不确定性，提高学生模型对潜在知识的探索能力，并在目标检测任务中获得有效性验证。

Jun, 2024

置信度感知的多教师知识蒸馏

该研究提出了一种自适应分配逐样本可靠度的方法，以每个教师的预测可信度来稳定知识转移过程，并结合中间层来提高学生成绩，在不同的教师 - 学生架构下，优于所有其他现有方法。

Dec, 2021

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

三元组知识蒸馏

提出了一种三元知识蒸馏 (TriKD) 机制，通过引入锚模型、在线知识传递和课程学习策略，可以有效地教授知识。该方法应用于图像分类和人脸识别中，结果表明了其有效性。

May, 2023

自监督语音模型的集成知识蒸馏

本文提出了一种多自监督语音模型集成的方法，通过使用层次平均聚合不同教师模型的表示，并为学生模型提出了多重预测头方法，从而大大提高了四个下游语音处理任务的性能，并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。

Feb, 2023

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024

在线多样化同行中的知识蒸馏

本文提出了一种双层蒸馏网络框架 OKDDip，其中包括多个辅助对等体和一个领导群体，辅助对等体通过注意力机制获取自己的预测目标，来作为组群内部的目标进行蒸馏学习，然后再将知识传递给领导群体，实现知识转移。实验结果表明，该框架在训练或推理复杂度上不会牺牲性能，相较于现有方法，可以提供更好的蒸馏效果。

Dec, 2019

知识蒸馏的有效性

本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师，且大型模型并不总是更好的教师，这导致了容器不匹配的问题，本研究表明教师的训练中止可以缓解这种效应，这些结果适用于各种数据集和模型。

Oct, 2019