Sep, 2023

基于遮蔽图像建模的异构生成式知识蒸馏

TL;DR针对小型卷积神经网络模型需要在计算资源有限的边缘设备上部署之前从大型模型中转移知识的问题,本文提出了一种基于遮蔽图像建模(MIM)的异构生成式知识蒸馏(H-GKD)方法,通过使用稀疏卷积训练一种 UNet 风格的学生模型,从遮蔽建模中有效模拟由教师模型推断出的视觉表示。我们的方法是一种简单而有效的学习范式,可以从异构教师模型中学习数据的视觉表示和分布。大量实验证明,该方法适用于各种模型和尺寸,在图像分类、目标检测和语义分割任务中始终保持最先进的性能。例如,在 Imagenet 1K 数据集中,H-GKD 将 Resnet50(sparse)的准确率从 76.98% 提高到 80.01%。