AAAIFeb, 2019

教辅辅助下的知识蒸馏改进

TL;DR本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题,提出了一种基于知识蒸馏的网络压缩方法。然而,该论文表明,如果学生网络与教师网络之间的差距太大,那么知识蒸馏的性能会下降;为此,该论文提出了一种多步知识蒸馏的方法,通过使用一个中等大小的网络(即教师助手)来弥补学生与教师之间的差距,并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。