利用遮盖图像建模来改善受监督的表征学习
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
本文提出了一种简单的自监督预训练框架 ConMIM,使用对比学习的方法在图像补丁级别上进行去噪自编码,通过不同的异构设计来提高网络的预训练性能,从而在多个视觉任务上实现了竞争性结果,如 ImageNet 分类,语义分割,目标检测和实例分割等。
May, 2022
本文提出了一种基于蒙版图像建模的框架,即 A^2MIM,可用于 Transformers 和 CNNs 网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。
May, 2022
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
Apr, 2024
本文提出使用语义丰富的视觉分词器作为蒙版预测的重构目标,以将蒙版图像建模从像素级别推广到语义级别,包括矢量量化知识蒸馏、预训练 Vision Transformers 和图像聚合策略等,实现了对图像分类和语义分割的超过现有 MIM 方法的表现。
Aug, 2022
本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势,即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为,在 MIM 中,图像记号掩蔽与文本中的掩蔽不同,因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务,我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想,其中教师 Transformer 编码器生成关注图,该图我们用于指导学生的掩蔽。因此,我们引入了一种新的掩蔽策略,称为注意力引导掩蔽 (AttMask),并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认,AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。
Mar, 2022
本文研究了遮蔽图像建模技术在医学三维图像分析中的应用,发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度,使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务,轻量级的解码器或投影头设计能够加快训练速度并降低成本,而 MIM 方法在不同的图像分辨率和标签数据比例下都具有良好的效果。
Apr, 2022
本文提出了 SimMIM 框架,通过探究每一个组件的简单设计方案,发现简单设计方案表现强劲,并在 ImageNet-1K 数据集上,使用 ViT-B 预训练和微调达到了 83.8%的 top-1 精度,并使用此方法促进 3B 模型(SwinV2-G)的训练,在四个代表性的视觉基准数据集中实现了最新的技术成果。
Nov, 2021
本文提出了 MIMDet 检测器,采用预处理的 ViT 编码器作为检测器基础,通过嵌入卷积中间特征构建多尺度表示,最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP,并且收敛速度更快。
Apr, 2022