掩蔽自编码器实现高效知识蒸馏

Aug, 2022

Masked Autoencoders Enable Efficient Knowledge Distillers

Yutong Bai, Zeyu Wang, Junfei Xiao, Chen Wei, Huiyu Wang...

TL;DR本文研究了从预训练模型中提取知识的潜力，提出了一种基于 Masked Autoencoders 的知识蒸馏框架，通过优化像素重构损失和最小化教师模型和学生模型中间的特征图之间的距离，从而实现计算上的高效率。实验结果表明，与直接蒸馏微调后的模型相比，蒸馏预训练模型可以显著提高下游性能，例如将 MAE 预训练的 ViT-L 蒸馏到一个 ViT-B 中，可以获得 84.0% 的 ImageNet top-1 精度，比直接蒸馏经过微调的 ViT-L 高出 1.2%。

Abstract

This paper studies the potential of distilling knowledge from pre-trained models, especially masked autoencoders. Our approach is simple: in addition to optimizing the pixel reconstruction loss on masked inputs, we minimize the distance between the intermediate feature map of the teach

knowledge distillation pre-trained models masked autoencoders computational efficiency imagenet

发现论文，激发创造

遮蔽图像建模的统一视角

本文提出了一种统一的视角，针对现有方法进行了修订，并引入了一种名为 MaskDistill 的简单而有效的方法，通过对受损输入图像的屏蔽位置的主题模型重新构建归一化语义特征，以解决大规模训练视觉转换器中需要大量标记的问题，实验结果表明，MaskDistill 在图像分类和语义分割方面的表现优于现有技术。

Oct, 2022

基于学生 - 教师模型的去泛化自编码器知识蒸馏

该研究提出了一种通用到特定蒸馏法 (G2SD)，以在受掩膜自编码器预训练的大型模型的监督下激发小型 ViT 模型的潜力，从而在图像分类、目标检测和语义分割任务上设置了坚实的基线。

Feb, 2023

用于预训练小型基础模型的非对称遮蔽蒸馏

通过非对称蒙版蒸馏 (AMD) 框架，以无监督学习为基础的相对较小视觉变换器模型能够高效适应下游任务，提高分类准确率和性能表现。

Nov, 2023

SdAE: 自我蒸馏的遮蔽式自编码器

本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络，该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息，以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈，提出了一种构建良好视图以产生潜在表示的方法，并使用多重蒙版策略来提供平衡信息的多个蒙版视图，以增强性能。

Jul, 2022

ReffAKD: 资源高效的基于自编码器的知识蒸馏

提出了一种新方法来提高知识蒸馏效率，同时不需要资源密集的教师模型。通过使用紧凑的自动编码器提取特征并计算不同类别之间的相似度得分，然后对这些相似度得分应用 softmax 函数以获得软概率向量，这个向量在学生模型的训练中作为有价值的指导。在各种数据集上进行的广泛实验表明，与依赖大型教师模型的传统知识蒸馏方法相比，我们的方法在资源效率方面具有更高的优势，并在模型准确性方面实现了相似甚至更高的性能。

Apr, 2024

遮蔽视频蒸馏：重新思考遮蔽特征建模，以进行自监督视频表示学习

本文提出基于两阶段模型的掩模视频蒸馏方法 (MVD)，并采用空间 - 时间共同教学方法进行电影变换器的预训练，实验证明该方法对于多个视频数据集优于现有方法。

Dec, 2022

掩码生成蒸馏

本文提出了一种新的知识蒸馏方法 Masked Generative Distillation (MGD)，通过引导学生的特征恢复，使用简单的掩码方式强制学生生成教师的完整特征，应用于图像分类、目标检测等各种任务中均表现良好。

May, 2022

有监督的遮蔽知识蒸馏用于小样本变压器

本文提出了一种新的有监督掩蔽知识蒸馏模型 (SMKD)，将标签信息融入到自我蒸馏框架中，通过在类和图块标记上进行内部类知识蒸馏，并引入在类内图像中对屏蔽图块标记重构的挑战性任务，我们比以前的自我监督方法实现了更好的结果，实验结果显示，我们的方法在四个 few-shot 分类基准数据集上的性能优于以往方法。

Mar, 2023

DMKD: 通过双重掩模增强改进基于特征的目标检测知识蒸馏

利用双重掩蔽知识蒸馏（DMKD）框架来捕捉空间重要性和通道相关信息以实现全面的掩蔽特征重构，通过自适应加权策略融合重构特征进行有效的特征蒸馏，在目标检测任务中与其他最先进的蒸馏方法相比，学生网络分别在 RetinaNet 和级联 Mask R-CNN 作为教师网络时取得了 4.1% 和 4.3% 的性能提升。

Sep, 2023

目标感知 Transformer 的知识蒸馏

本篇论文提出了一种新型的知识蒸馏方法，采用一对所有的空间匹配，提高小型神经网络的性能，不同于以往的一对一的空间匹配，从而导致所有的空间位置通常都具有不同的语义信息。该方法在各种计算机视觉基准测试中都超过了最先进的方法。

May, 2022