May, 2020

蒸馏为什么有用:一个统计学的视角

TL;DR本论文从统计角度阐述了知识蒸馏的原理,即让一个简单的 “学生” 模型依据一个复杂的 “教师” 模型得到的标签概率分布进行训练,从而提高性能,并提出了一种新颖的与极端多分类检索技术相关的方法。