Mar, 2022

重复使用教师分类器的知识蒸馏

TL;DR使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。