用于预训练小型基础模型的非对称遮蔽蒸馏
本文研究了从预训练模型中提取知识的潜力,提出了一种基于 Masked Autoencoders 的知识蒸馏框架,通过优化像素重构损失和最小化教师模型和学生模型中间的特征图之间的距离,从而实现计算上的高效率。实验结果表明,与直接蒸馏微调后的模型相比,蒸馏预训练模型可以显著提高下游性能,例如将 MAE 预训练的 ViT-L 蒸馏到一个 ViT-B 中,可以获得 84.0% 的 ImageNet top-1 精度,比直接蒸馏经过微调的 ViT-L 高出 1.2%。
Aug, 2022
该研究提出了一种通用到特定蒸馏法 (G2SD),以在受掩膜自编码器预训练的大型模型的监督下激发小型 ViT 模型的潜力,从而在图像分类、目标检测和语义分割任务上设置了坚实的基线。
Feb, 2023
本文提出了一种统一的视角,针对现有方法进行了修订,并引入了一种名为 MaskDistill 的简单而有效的方法,通过对受损输入图像的屏蔽位置的主题模型重新构建归一化语义特征,以解决大规模训练视觉转换器中需要大量标记的问题,实验结果表明,MaskDistill 在图像分类和语义分割方面的表现优于现有技术。
Oct, 2022
本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络,该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
本文介绍了使用视频掩码自编码器(VideoMAE)进行可扩展和一般自监督预训练,用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。
Mar, 2023
本文提出基于两阶段模型的掩模视频蒸馏方法 (MVD),并采用空间 - 时间共同教学方法进行电影变换器的预训练,实验证明该方法对于多个视频数据集优于现有方法。
Dec, 2022
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
Apr, 2024
本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏,提出了一种简单有效的压缩大型预训练模型的方法,同时引入了新的 “缩放点积” 深层自我注意知识,并在这个基础上设计了一个小留学生模型来减少参数量和延迟,实现了对 GLUE 质量基准测试的有效超越。
Feb, 2020