Oct, 2023

利用早期结果来调控蒸馏中的特征偏倚

TL;DR深度网络在现实世界的监督学习任务中往往学习到伪特征 - 标签相关性,而蒸馏中学生模型的表征能力可能比相应的教师模型低,我们提出了一种新颖的早期输出机制,通过使用网络较早层的表征来尝试预测标签,这些早期输出可以自动识别出形式为自信但错误的预测的问题实例或组,利用这些信号在实例级别调节蒸馏损失,不仅能够在基准数据集上大幅改善组公平度度量,还能提高学生模型的整体准确性,此外,我们还进行了次要分析,揭示了特征学习在监督和蒸馏中的作用。