基于遮蔽图像建模的异构生成式知识蒸馏

Sep, 2023

基于遮蔽图像建模的异构生成式知识蒸馏

Heterogeneous Generative Knowledge Distillation with Masked Image Modeling

Ziming Wang, Shumin Han, Xiaodi Wang, Jing Hao, Xianbin Cao...

TL;DR针对小型卷积神经网络模型需要在计算资源有限的边缘设备上部署之前从大型模型中转移知识的问题，本文提出了一种基于遮蔽图像建模（MIM）的异构生成式知识蒸馏（H-GKD）方法，通过使用稀疏卷积训练一种 UNet 风格的学生模型，从遮蔽建模中有效模拟由教师模型推断出的视觉表示。我们的方法是一种简单而有效的学习范式，可以从异构教师模型中学习数据的视觉表示和分布。大量实验证明，该方法适用于各种模型和尺寸，在图像分类、目标检测和语义分割任务中始终保持最先进的性能。例如，在 Imagenet 1K 数据集中，H-GKD 将 Resnet50（sparse）的准确率从 76.98% 提高到 80.01%。

Abstract

small cnn-based models usually require transferring knowledge from a large model before they are deployed in computationally resource-limited edge devices. Masked image modeling (MIM) methods achieve great success in various visual tasks but remain largely unexplored in →

small cnn-based models knowledge distillation heterogeneous deep models generative self-supervised fashion unet-style student

发现论文，激发创造

掩码生成蒸馏

本文提出了一种新的知识蒸馏方法 Masked Generative Distillation (MGD)，通过引导学生的特征恢复，使用简单的掩码方式强制学生生成教师的完整特征，应用于图像分类、目标检测等各种任务中均表现良好。

May, 2022

有监督的遮蔽知识蒸馏用于小样本变压器

本文提出了一种新的有监督掩蔽知识蒸馏模型 (SMKD)，将标签信息融入到自我蒸馏框架中，通过在类和图块标记上进行内部类知识蒸馏，并引入在类内图像中对屏蔽图块标记重构的挑战性任务，我们比以前的自我监督方法实现了更好的结果，实验结果显示，我们的方法在四个 few-shot 分类基准数据集上的性能优于以往方法。

Mar, 2023

DMKD: 通过双重掩模增强改进基于特征的目标检测知识蒸馏

利用双重掩蔽知识蒸馏（DMKD）框架来捕捉空间重要性和通道相关信息以实现全面的掩蔽特征重构，通过自适应加权策略融合重构特征进行有效的特征蒸馏，在目标检测任务中与其他最先进的蒸馏方法相比，学生网络分别在 RetinaNet 和级联 Mask R-CNN 作为教师网络时取得了 4.1% 和 4.3% 的性能提升。

Sep, 2023

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

混合蒸馏：将掩模自编码器与对比学习器连接

本文探讨如何通过 Hybrid Distillation 策略，结合 Contrastive Learning 和 Masked Image Modeling 的优势，同时满足特征的判别性和多样性，并通过对比实验证明 Hybrid Distillation 在不同的基准测试上均可实现卓越的性能。

Jun, 2023

学生不应看到的内容：基于注意力引导的遮蔽图像建模

本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势，即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为，在 MIM 中，图像记号掩蔽与文本中的掩蔽不同，因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务，我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想，其中教师 Transformer 编码器生成关注图，该图我们用于指导学生的掩蔽。因此，我们引入了一种新的掩蔽策略，称为注意力引导掩蔽 (AttMask)，并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认，AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。

Mar, 2022

遮蔽图像建模的统一视角

本文提出了一种统一的视角，针对现有方法进行了修订，并引入了一种名为 MaskDistill 的简单而有效的方法，通过对受损输入图像的屏蔽位置的主题模型重新构建归一化语义特征，以解决大规模训练视觉转换器中需要大量标记的问题，实验结果表明，MaskDistill 在图像分类和语义分割方面的表现优于现有技术。

Oct, 2022

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

优秀的学生具备合作和可靠性：CNN-Transformer 语义分割的协同学习

本文介绍了一种在线知识蒸馏框架，通过选择和交换可靠知识来协同学习基于卷积神经网络（CNN）和视觉变压器（ViT）的模型，以进行语义分割。经过大量实验验证，我们提出的框架在大幅领先于现有的在线蒸馏方法的同时，展示了 ViT 和 CNN 模型之间协同学习的有效性。

Jul, 2023

从 CNN 提炼高效的视觉 Transformer 用于语义分割

我们提出了一种 CNN 到 ViT 知识蒸馏框架，包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD)，实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。

Oct, 2023