ICCVSep, 2020

多教师助理指导的密集知识蒸馏

TL;DR本文提出一种基于多个 teacher assistant 的密集引导知识蒸馏方法,通过逐渐减小模型大小有效地弥合 teacher 和 student 之间的巨大差距,实现了对 student 的更高效学习,并在 CIFAR-10、CIFAR-100 和 ImageNet 上的多个 backbone 架构中取得了显著的性能提升。