Oct, 2023

提升知识蒸馏与教师解释

TL;DR我们提出了一种名为知识解释蒸馏(KED)的框架,通过引入超特征解释教师,允许学生不仅从教师的预测中学习,还从教师的解释中学习,以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据,实验证明,KED 学生可以显著优于类似复杂度的 KD 学生。