Dec, 2023

RdimKD: 通过降维进行通用蒸馏范式

TL;DR这篇研究提出了一种新的知识蒸馏范式,称为维度降低知识蒸馏(RdimKD),通过使用一个投影矩阵将大网络和小网络的特征图投影到低维子空间,并在训练过程中进行优化,既保证学生从老师获取有价值信息,又灵活适应学生的低容量实际情况。实证研究表明 RdimKD 在各种学习任务和不同网络架构中具有有效性。