May, 2022

高效参数和适合学生的知识蒸馏

TL;DR本文提出一种参数高效、学生友好的知识蒸馏方法 PESF-KD,通过更新相对较少的参数,实现高效、充分的知识转移,其中引入了适配器模块,将教师的输出转化为合适平滑度的软标签。实验表明,与在线蒸馏方法相比,PESF-KD 能够显著降低培训成本,同时获得有竞争力的结果。