AAAIDec, 2020

语义校准的跨层蒸馏

TL;DR本文提出了 Semantic Calibration for cross-layer Knowledge Distillation (SemCKD) 方法,使用 Attention 机制自动分配适当的目标层,对学生模型进行知识蒸馏,以提高泛化能力。