Feb, 2024

优秀教师解释:解释增强的知识蒸馏

TL;DR通过优化经典 KD 损失和教师与学生生成的解释的相似度,提出的解释增强型 KD(e^2KD)能够显著提高准确性和学生 - 教师一致性,并确保学生从教师那里得到正确的原因和相似的解释,同时能适应不同模型架构、训练数据量,甚至使用预计算的 “近似” 解释。