掩码生成蒸馏
利用双重掩蔽知识蒸馏(DMKD)框架来捕捉空间重要性和通道相关信息以实现全面的掩蔽特征重构,通过自适应加权策略融合重构特征进行有效的特征蒸馏,在目标检测任务中与其他最先进的蒸馏方法相比,学生网络分别在 RetinaNet 和级联 Mask R-CNN 作为教师网络时取得了 4.1% 和 4.3% 的性能提升。
Sep, 2023
本文提出基于两阶段模型的掩模视频蒸馏方法 (MVD),并采用空间 - 时间共同教学方法进行电影变换器的预训练,实验证明该方法对于多个视频数据集优于现有方法。
Dec, 2022
本文提出了匹配引导蒸馏(Matching Guided Distillation,MGD)方法,该方法是一种高效的,不需要参数的方法,旨在解决适配模块带来的问题和随机初始化或特殊转换对预训练学生进行提炼的不利影响。MGD 的关键思想是将教师信道与学生信道的匹配作为分配问题,通过三种解决方案将教师信道的数量减少到学生信道,并使用部分蒸馏损失来更新分配。整个训练采用两个优化目标之间的协调下降方法。
Aug, 2020
知识蒸馏是将知识从一种更强大的大模型(教师)转移到一个更简单的对应物(学生)的过程。通过引入新颖的发生器去噪蒸馏方法(GDD),本文提出了一种从教师中导出更紧凑表示的方法,并在目标检测、实例分割和语义分割等任务中得到了新的最佳表现。
Jan, 2024
针对小型卷积神经网络模型需要在计算资源有限的边缘设备上部署之前从大型模型中转移知识的问题,本文提出了一种基于遮蔽图像建模(MIM)的异构生成式知识蒸馏(H-GKD)方法,通过使用稀疏卷积训练一种 UNet 风格的学生模型,从遮蔽建模中有效模拟由教师模型推断出的视觉表示。我们的方法是一种简单而有效的学习范式,可以从异构教师模型中学习数据的视觉表示和分布。大量实验证明,该方法适用于各种模型和尺寸,在图像分类、目标检测和语义分割任务中始终保持最先进的性能。例如,在 Imagenet 1K 数据集中,H-GKD 将 Resnet50(sparse)的准确率从 76.98% 提高到 80.01%。
Sep, 2023
本文提出了一种学习嵌入称为感受野标记的方法,该方法可以通过像素级注意力生成的蒸馏掩模在掩模上执行蒸馏。我们采用了多个感受野标记来研究更复杂和更具信息性的像素依赖性,从而进一步增强了去卷积过程。在物体检测和语义分割基准测试中,我们的方法(MasKD)可以始终达到最先进的性能,并且无需应用任务的先验知识。
May, 2022
本文提出了一种统一的视角,针对现有方法进行了修订,并引入了一种名为 MaskDistill 的简单而有效的方法,通过对受损输入图像的屏蔽位置的主题模型重新构建归一化语义特征,以解决大规模训练视觉转换器中需要大量标记的问题,实验结果表明,MaskDistill 在图像分类和语义分割方面的表现优于现有技术。
Oct, 2022
本文提出了一种基于掩码生成特征的渐进蒸馏方法,用于知识图谱完成任务,显著降低了预训练模型的复杂性。通过对预训练模型进行预蒸馏以获取高质量的教师模型,然后压缩预训练模型网络获取多级学生模型,通过渐进蒸馏实现了从教师到学生的高效知识转移。实验结果表明,在预蒸馏阶段,模型超过了现有最先进方法,在渐进蒸馏阶段,模型在显著减少模型参数的同时保持一定水平的性能。具体而言,相较于基线,低级别学生模型的模型参数减少了 56.7%。
Jan, 2024
本文研究了从预训练模型中提取知识的潜力,提出了一种基于 Masked Autoencoders 的知识蒸馏框架,通过优化像素重构损失和最小化教师模型和学生模型中间的特征图之间的距离,从而实现计算上的高效率。实验结果表明,与直接蒸馏微调后的模型相比,蒸馏预训练模型可以显著提高下游性能,例如将 MAE 预训练的 ViT-L 蒸馏到一个 ViT-B 中,可以获得 84.0% 的 ImageNet top-1 精度,比直接蒸馏经过微调的 ViT-L 高出 1.2%。
Aug, 2022
利用 discriminative instances,我们提出了一个叫做 general instance distillation(GID)的检测任务中的知识蒸馏方法,其学生模型在不同的检测框架中都实现了显著的 AP 改进,甚至在 COCO 数据集上超过了教师模型。
Mar, 2021