基于学生 - 教师模型的去泛化自编码器知识蒸馏

CVPRFeb, 2023

基于学生 - 教师模型的去泛化自编码器知识蒸馏

Generic-to-Specific Distillation of Masked Autoencoders

Wei Huang, Zhiliang Peng, Li Dong, Furu Wei, Jianbin Jiao...

TL;DR该研究提出了一种通用到特定蒸馏法 (G2SD)，以在受掩膜自编码器预训练的大型模型的监督下激发小型 ViT 模型的潜力，从而在图像分类、目标检测和语义分割任务上设置了坚实的基线。

Abstract

Large vision transformers (ViTs) driven by self-supervised pre-training mechanisms achieved unprecedented progress. Lightweight ViT models limited by the model capacity, however, benefit little from those pre-tra

vision transformers knowledge distillation generic-to-specific distillation model capacity model generalization

发现论文，激发创造

掩蔽自编码器实现高效知识蒸馏

本文研究了从预训练模型中提取知识的潜力，提出了一种基于 Masked Autoencoders 的知识蒸馏框架，通过优化像素重构损失和最小化教师模型和学生模型中间的特征图之间的距离，从而实现计算上的高效率。实验结果表明，与直接蒸馏微调后的模型相比，蒸馏预训练模型可以显著提高下游性能，例如将 MAE 预训练的 ViT-L 蒸馏到一个 ViT-B 中，可以获得 84.0% 的 ImageNet top-1 精度，比直接蒸馏经过微调的 ViT-L 高出 1.2%。

Aug, 2022

有监督的遮蔽知识蒸馏用于小样本变压器

本文提出了一种新的有监督掩蔽知识蒸馏模型 (SMKD)，将标签信息融入到自我蒸馏框架中，通过在类和图块标记上进行内部类知识蒸馏，并引入在类内图像中对屏蔽图块标记重构的挑战性任务，我们比以前的自我监督方法实现了更好的结果，实验结果显示，我们的方法在四个 few-shot 分类基准数据集上的性能优于以往方法。

Mar, 2023

关于大型预训练模型的任务特定蒸馏的优良实践

大型预训练视觉模型在多样的识别任务上表现出显著的泛化能力。然而，现实世界中的应用通常需要针对特定问题的紧凑模型。本文针对这一目的，提出了各种知识蒸馏的变体，使得特定任务的紧凑模型（学生）能够从通用的大型预训练模型（教师）中学习。我们展示了近期预训练模型出色的鲁棒性和多功能性挑战了文献中已经建立起来的共同实践，需要一组新的最优准则来进行特定任务的蒸馏。为了解决下游任务中样本不足的问题，我们还展示了一种基于稳定扩散的 Mixup 变体，该策略补充了标准数据增强，消除了工程化的文本提示的需求，改善了通用模型向精简专用网络的蒸馏。

Feb, 2024

遮蔽视频蒸馏：重新思考遮蔽特征建模，以进行自监督视频表示学习

本文提出基于两阶段模型的掩模视频蒸馏方法 (MVD)，并采用空间 - 时间共同教学方法进行电影变换器的预训练，实验证明该方法对于多个视频数据集优于现有方法。

Dec, 2022

用于预训练小型基础模型的非对称遮蔽蒸馏

通过非对称蒙版蒸馏 (AMD) 框架，以无监督学习为基础的相对较小视觉变换器模型能够高效适应下游任务，提高分类准确率和性能表现。

Nov, 2023

通过语言引导知识蒸馏的轻量级模型预训练

本论文研究小型模型的预训练问题，提出了一种名为 Language-Guided Distillation (LGD) 的新方法，利用语言指导来帮助在大型网络和小型模型之间传递知识，实现优于现有方法的性能，验证了在分类、检测和分割等多个下游任务中的卓越表现。

Jun, 2024

自主学习视觉 Transformer 用于领域泛化

本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题，并在五个具有挑战性的数据集上实现了显著的性能提升，同时表现出了对最新领域泛化方法的优异性。

Jul, 2022

提炼归纳偏见：超越模型压缩的知识蒸馏

通过集成式蒸馏方法从轻量级教师模型中蒸馏归纳偏差，我们介绍了一种创新的蒸馏方法，以支持视觉转换和文本领域之间的统一信息处理，提高了学生性能，并减轻了计算负担和提高了效率。

Sep, 2023

通过深度生成先验的数据集蒸馏泛化

Dataset Distillation technique using learned prior of deep generative models and a new optimization algorithm improves cross-architecture generalization by synthesizing few synthetic images from a large dataset.

May, 2023

从 CNN 提炼高效的视觉 Transformer 用于语义分割

我们提出了一种 CNN 到 ViT 知识蒸馏框架，包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD)，实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。

Oct, 2023