May, 2021

知识蒸馏中的Kullback-Leibler Divergence和Mean Squared Error Loss的比较

TL;DR研究知识蒸馏的目标函数KL散度损失在温度参数变大时侧重于logit匹配,而在温度参数趋近于0时侧重于标签匹配,提出使用均方误差作为损失函数,学生模型直接学习老师模型的logit向量。该方法优于KL散度损失,并可以改善标签噪声,通过实验证明了知识蒸馏的有效性。