May, 2018
代际知识蒸馏:更具宽容性的教师教育更好的学生
Knowledge Distillation in Generations: More Tolerant Teachers Educate
Better Students
TL;DR本文从严格性控制角度研究了深度神经网络的教师网络和学生网络的优化问题。通过针对教师网络训练中的宽松性进行优化,使得学生网络在学习过程中更容易获得跨类别相似性信息,从而在CIFAR100和ILSVRC2012等数据集的图像分类任务中取得更高的分类准确率。