ICLRFeb, 2024

基于转换的教师匹配的知识蒸馏

TL;DR温度缩放在知识蒸馏中发挥了关键作用,该论文通过对学生的温度缩放进行改进,引入了 Rényi 熵项作为正则化项,以及权重系数的自适应样本加权,实现了一种新的蒸馏方法,称为加权 TTM(WTTM),该方法通过实验证明了其有效性和在准确性方面达到了最好的表现。