Oct, 2023

一对多:在知识蒸馏中弥合异构架构的差距

TL;DR通过使用居中核对齐方法比较异构教师和学生模型之间的特征学习情况,我们观察到显著的特征差异,进而揭示了以往基于暗示的方法在跨体系结构蒸馏中的无效性。为了解决在异构模型蒸馏中的挑战,我们提出了一种简单而有效的一对多蒸馏框架(OFA-KD),通过将中间特征投影到对齐的潜空间(如 logits 空间)中,丢弃体系结构特定信息,并引入自适应目标增强方案来防止学生受到无关信息的干扰。通过多种体系结构的广泛实验,包括 CNN、Transformer 和 MLP,证明了我们 OFA-KD 框架在实现异构体系结构蒸馏方面的优势。具体而言,在使用我们的 OFA-KD 框架后,学生模型在 CIFAR-100 数据集上最多提高了 8.0%,在 ImageNet-1K 数据集上提高了 0.7%。