Aug, 2022

掩蔽自编码器实现高效知识蒸馏

TL;DR本文研究了从预训练模型中提取知识的潜力,提出了一种基于 Masked Autoencoders 的知识蒸馏框架,通过优化像素重构损失和最小化教师模型和学生模型中间的特征图之间的距离,从而实现计算上的高效率。实验结果表明,与直接蒸馏微调后的模型相比,蒸馏预训练模型可以显著提高下游性能,例如将 MAE 预训练的 ViT-L 蒸馏到一个 ViT-B 中,可以获得 84.0% 的 ImageNet top-1 精度,比直接蒸馏经过微调的 ViT-L 高出 1.2%。