Jan, 2023

授课老师在蒸馏中的偏差:违抗是否值得?

TL;DR通过一系列的实验,我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候,会使得学生网络的置信度更低,而之后引入知识蒸馏 (loss) 会恢复部分性能,同时我们提供了两种理论视角来理解这种现象,作为特征空间的正则化项和梯度去噪器。