通过减少模型能力浪费来改进基于像素的 MIM

ICCVAug, 2023

通过减少模型能力浪费来改进基于像素的 MIM

Improving Pixel-based MIM by Reducing Wasted Modeling Capability

Yuan Liu, Songyang Zhang, Jiacheng Chen, Zhaohui Yu, Kai Chen...

TL;DR本文通过一系列实证研究确认了基于像素的遮罩图像建模存在的限制，并提出一种利用来自浅层的低级特征辅助像素重建的新方法。将该设计纳入基本方法 MAE 中，我们减少了基于像素的遮罩图像建模的建模能力浪费，提高了其收敛性并在多个下游任务中取得了实质性的改进。据我们所知，我们是首次系统研究多级特征融合在类似标准 Vision Transformer（ViT）的各向同性架构中的应用。值得注意的是，当应用于较小的模型（例如 ViT-S）时，我们的方法在微调、线性探测和语义分割等方面取得了显著的性能提升。代码和模型可在此 https 链接获得。

Abstract

There has been significant progress in masked image modeling (MIM). Existing MIM methods can be broadly categorized into two groups based on the reconstruction target: pixel-based and →

masked image modeling pixel-based tokenizer-based low-level features multi-level feature fusion

发现论文，激发创造

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

用向量量化视觉令牌器进行遮蔽图像建模的 BEiT v2

本文提出使用语义丰富的视觉分词器作为蒙版预测的重构目标，以将蒙版图像建模从像素级别推广到语义级别，包括矢量量化知识蒸馏、预训练 Vision Transformers 和图像聚合策略等，实现了对图像分类和语义分割的超过现有 MIM 方法的表现。

Aug, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

局部多尺度重建的遮盖图像建模

本文提出了一种 Masked Image Modeling（MIM）的改进方案，通过在多个不同尺度的层次上进行重构任务，显式地指导多个层次的编码器，在减小预训练负担的同时，在分类、检测和分割任务中取得可比或更好的性能。

Mar, 2023

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

SimMIM: 简易掩模图像建模框架

本文提出了 SimMIM 框架，通过探究每一个组件的简单设计方案，发现简单设计方案表现强劲，并在 ImageNet-1K 数据集上，使用 ViT-B 预训练和微调达到了 83.8％的 top-1 精度，并使用此方法促进 3B 模型（SwinV2-G）的训练，在四个代表性的视觉基准数据集中实现了最新的技术成果。

Nov, 2021

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

通过动态令牌变形进行图像遮盖建模

基于动态令牌变形的掩码图像建模（DTM）是一种有前景的自监督学习方法，可应用于不同的 SSL 框架，在不引入额外的训练成本的情况下有效改进表现，并经过多个实验证明其在各种下游任务上的可迁移性。

Dec, 2023

观察、分析与解决：通过带掩码图像建模预训练探索强大轻量化视觉 Transformer

通过对轻量级视觉 Transformer（ViTs）的掩码图像建模（MIM）预训练方法与对比学习（CL）预训练方法在不同数据规模下的行为对比研究，观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现，进而提出了预训练退火策略来解决这一问题，实验证明了该方法在不同视觉任务中的有效性。

Apr, 2024

有效预训练的蒙版标记的新特性

通过优化蒙面标记以解决自我监督学习中的效率问题，该方法称为蒙面标记优化（MTO），可实现与最新方法相当的预训练性能，减少近 50% 的预训练时期。

Apr, 2024