CVPRSep, 2019

通过标签平滑正则化重新审视知识蒸馏

TL;DR本文挑战了使用强大的 teacher model 教授弱 student model 的共识,详细阐述了 KD 和 label smoothing regularization 之间的关系,提出了 Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常 KD 相媲美的性能。