Mar, 2022

解耦式知识蒸馏

TL;DR通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分,本文证明了 logit distillation 方法的潜在价值,并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用,从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。