ECCVSep, 2021

剪枝模型优于压缩之后再蒸馏

TL;DR本文提出了一种新的 “剪枝再蒸馏” 的框架,该框架在知识蒸馏中先对模型进行了剪枝以使其更易于转移,并且理论证明了剪枝后的教师模型在知识蒸馏中扮演了正则化器的作用,并减少了泛化误差。最后,我们提出了一种新的神经网络压缩方案,其中的学生网络是基于剪枝后的教师网络构建,然后采用 “剪枝再蒸馏” 的策略进行蒸馏。