Feb, 2024
优秀教师解释:解释增强的知识蒸馏
Good Teachers Explain: Explanation-Enhanced Knowledge Distillation
Amin Parchami-Araghi, Moritz Böhle, Sukrut Rao, Bernt Schiele
TL;DR通过优化经典 KD 损失和教师与学生生成的解释的相似度,提出的解释增强型 KD(e^2KD)能够显著提高准确性和学生 - 教师一致性,并确保学生从教师那里得到正确的原因和相似的解释,同时能适应不同模型架构、训练数据量,甚至使用预计算的 “近似” 解释。