遮蔽视频蒸馏:重新思考遮蔽特征建模,以进行自监督视频表示学习
本文提出了一种统一的视角,针对现有方法进行了修订,并引入了一种名为 MaskDistill 的简单而有效的方法,通过对受损输入图像的屏蔽位置的主题模型重新构建归一化语义特征,以解决大规模训练视觉转换器中需要大量标记的问题,实验结果表明,MaskDistill 在图像分类和语义分割方面的表现优于现有技术。
Oct, 2022
本文提出了一种新的知识蒸馏方法 Masked Generative Distillation (MGD),通过引导学生的特征恢复,使用简单的掩码方式强制学生生成教师的完整特征,应用于图像分类、目标检测等各种任务中均表现良好。
May, 2022
本文研究了从预训练模型中提取知识的潜力,提出了一种基于 Masked Autoencoders 的知识蒸馏框架,通过优化像素重构损失和最小化教师模型和学生模型中间的特征图之间的距离,从而实现计算上的高效率。实验结果表明,与直接蒸馏微调后的模型相比,蒸馏预训练模型可以显著提高下游性能,例如将 MAE 预训练的 ViT-L 蒸馏到一个 ViT-B 中,可以获得 84.0% 的 ImageNet top-1 精度,比直接蒸馏经过微调的 ViT-L 高出 1.2%。
Aug, 2022
本文提出了一种新的有监督掩蔽知识蒸馏模型 (SMKD),将标签信息融入到自我蒸馏框架中,通过在类和图块标记上进行内部类知识蒸馏,并引入在类内图像中对屏蔽图块标记重构的挑战性任务,我们比以前的自我监督方法实现了更好的结果,实验结果显示,我们的方法在四个 few-shot 分类基准数据集上的性能优于以往方法。
Mar, 2023
利用双重掩蔽知识蒸馏(DMKD)框架来捕捉空间重要性和通道相关信息以实现全面的掩蔽特征重构,通过自适应加权策略融合重构特征进行有效的特征蒸馏,在目标检测任务中与其他最先进的蒸馏方法相比,学生网络分别在 RetinaNet 和级联 Mask R-CNN 作为教师网络时取得了 4.1% 和 4.3% 的性能提升。
Sep, 2023
通过知识蒸馏,从少量的帧中获取来自教师探测器的长期记忆,以平衡鸟瞰图 3D 目标检测中的精确性和效率,并通过生成器产生用于重建学生特征的新特征。在学生模型中输入完整帧时还探索了时间关系知识。在 nuScenes 基准测试上验证了该方法的有效性,并取得了 + 1.6 mAP 和 + 1.1 NDS 的改进,压缩时间知识后大约提高了 6 FPS 的速度,并实现了最准确的速度估计。
Jan, 2024
本文系统研究了遮蔽视觉建模(MVM)在视频 - 语言(VidL)预训练中的应用,基于全面的端到端 VIdeO-LanguagE 变换器(VIOLET),提出了 8 种不同的 MVM 重构目标,从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明,使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。
Sep, 2022
该研究提出了一种通用到特定蒸馏法 (G2SD),以在受掩膜自编码器预训练的大型模型的监督下激发小型 ViT 模型的潜力,从而在图像分类、目标检测和语义分割任务上设置了坚实的基线。
Feb, 2023
研究发现通过简单的特征蒸馏,可以极大地提高预训练方法的微调性能,使其与基于遮挡图像模型的方法一样强大,在从事未来研究时,可以更加注重学习表示的普适性和可扩展性,而不需要过分关注其优化的友好性。
May, 2022