CVPRSep, 2019
通过标签平滑正则化重新审视知识蒸馏
Revisiting Knowledge Distillation via Label Smoothing Regularization
Li Yuan, Francis E.H.Tay, Guilin Li, Tao Wang, Jiashi Feng
TL;DR本文挑战了使用强大的 teacher model 教授弱 student model 的共识,详细阐述了 KD 和 label smoothing regularization 之间的关系,提出了 Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常 KD 相媲美的性能。