Nov, 2023

黑暗面的知识:基于熵重新加权的知识蒸馏,以实现平衡的知识传递

TL;DR利用熵重新加权的知识蒸馏 (ER-KD) 方法通过重新调整学生模型的关注点,减少对简单情况的侧重,从而实现在知识传递过程中更加平衡的效果。