Oct, 2020
宽神经网络中的知识蒸馏:风险界限、数据效率和有误导的教师
Knowledge Distillation in Wide Neural Networks: Risk Bound, Data
Efficiency and Imperfect Teacher
TL;DR通过使用教师网络的软输出作为向导进行学生网络的训练,知识蒸馏是模型压缩和知识转移的成功方法之一。本文通过分析一种宽神经网络的知识蒸馏,提出了一种称为数据效率的任务难度度量标准,并证明了在教师完美的情况下,教师软标签的高比例可以很有益处,并且在不完美的教师情况下,硬标签可以修正教师的错误预测,这解释了混合硬标签和软标签的实践。