MimCo: 带对比教师的遮蔽图像建模预训练
本文提出了一种简单的自监督预训练框架 ConMIM,使用对比学习的方法在图像补丁级别上进行去噪自编码,通过不同的异构设计来提高网络的预训练性能,从而在多个视觉任务上实现了竞争性结果,如 ImageNet 分类,语义分割,目标检测和实例分割等。
May, 2022
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
利用自监督学习方法在中等规模的图像数据集上,对视觉 Transformer 进行预训练,并通过对比微调的方式有效减少面部数据集和面部表情识别数据集之间的领域差异,实现更好的表征学习。
Jan, 2024
本文提出层级嫁接预训练 (Layer Grafted Pre-training) 方法,以笔者实验观察到的低层适合 MIM,高层适合 CL 为出发点,采用简单的 “顺序级联” 方式依次训练,旨在学习好的视觉表示。在 ImageNet-1k 数据集上,结合 ViT-B/16 能够取得 65.5% 的 1% few-shot 学习 Top-1 准确率,在无必要的改进的情况下提高了 MIM 和 CL 的基线水平 14.4% 和 2.1%。
Feb, 2023
研究发现通过简单的特征蒸馏,可以极大地提高预训练方法的微调性能,使其与基于遮挡图像模型的方法一样强大,在从事未来研究时,可以更加注重学习表示的普适性和可扩展性,而不需要过分关注其优化的友好性。
May, 2022
通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
Apr, 2024
本文提出了一种基于蒙版图像建模的框架,即 A^2MIM,可用于 Transformers 和 CNNs 网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。
May, 2022
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
MIM-Refiner 通过对比学习提升预训练的 MIM 模型,并在几个时代内将其从次优到最先进的特征状态进行了有效的精炼,该方法在线性探测和低样本分类中取得了新的最先进结果。
Feb, 2024