Sep, 2020

多教师助理指导的密集知识蒸馏

TL;DR本文提出一种基于多个teacher assistant的密集引导知识蒸馏方法,通过逐渐减小模型大小有效地弥合teacher和student之间的巨大差距,实现了对student的更高效学习,并在CIFAR-10、CIFAR-100和ImageNet上的多个backbone架构中取得了显著的性能提升。