RevColV2：探索掩蔽图像建模中的脱离关系表征

Sep, 2023

RevColV2：探索掩蔽图像建模中的脱离关系表征

RevColV2: Exploring Disentangled Representations in Masked Image Modeling

Qi Han, Yuxuan Cai, Xiangyu Zhang

TL;DRRevColV2 是一种新的架构，通过在预训练和微调过程中保留整个自编码器架构来解决预训练和微调之间表示不一致的问题，并在多个下游视觉任务中实现具有竞争力的性能。

Abstract

masked image modeling (MIM) has become a prevalent pre-training setup for vision foundation models and attains promising performance. Despite its success, existing MIM methods discard the decoder network during d

masked image modeling revcolv2 pre-training fine-tuning downstream vision tasks

发现论文，激发创造

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

使用遮蔽图像建模发挥纯 Transformer 视觉模型在目标检测中的作用

本文提出了 MIMDet 检测器，采用预处理的 ViT 编码器作为检测器基础，通过嵌入卷积中间特征构建多尺度表示，最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP，并且收敛速度更快。

Apr, 2022

MimCo: 带对比教师的遮蔽图像建模预训练

本文提出了一种名为 MimCo 的新型、灵活的预训练框架，通过两阶段的预训练，将 MIM 和对比学习相结合，提高了 MIM 预训练表示的线性可分性，取得了优越的性能。

Sep, 2022

遮蔽图像建模的统一视角

本文提出了一种统一的视角，针对现有方法进行了修订，并引入了一种名为 MaskDistill 的简单而有效的方法，通过对受损输入图像的屏蔽位置的主题模型重新构建归一化语义特征，以解决大规模训练视觉转换器中需要大量标记的问题，实验结果表明，MaskDistill 在图像分类和语义分割方面的表现优于现有技术。

Oct, 2022

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

观察、分析与解决：通过带掩码图像建模预训练探索强大轻量化视觉 Transformer

通过对轻量级视觉 Transformer（ViTs）的掩码图像建模（MIM）预训练方法与对比学习（CL）预训练方法在不同数据规模下的行为对比研究，观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现，进而提出了预训练退火策略来解决这一问题，实验证明了该方法在不同视觉任务中的有效性。

Apr, 2024

局部多尺度重建的遮盖图像建模

本文提出了一种 Masked Image Modeling（MIM）的改进方案，通过在多个不同尺度的层次上进行重构任务，显式地指导多个层次的编码器，在减小预训练负担的同时，在分类、检测和分割任务中取得可比或更好的性能。

Mar, 2023

MILAN: 基于语言辅助表征的掩蔽图像预训练

本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN，通过嵌入语言监督来生成语义信息丰富的图像特征，通过实验证明，该方法在多项计算机视觉任务中优于现有方法。

Aug, 2022