对称掩蔽策略增强了掩蔽图像建模的性能

Aug, 2024

对称掩蔽策略增强了掩蔽图像建模的性能

Symmetric masking strategy enhances the performance of Masked Image Modeling

Khanh-Binh Nguyen, Chae Jung Park

TL;DR本研究解决了传统掩蔽图像建模方法通过随机掩蔽策略所带来的资源消耗和训练效率低下的问题。提出了一种新的对称掩蔽策略，能够更有效地捕捉模型的全局和局部特征，进而引入SymMIM训练流程。在ImageNet数据集上，SymMIM实现了85.9%的最新状态准确率，并在下游任务中超越了先前的最佳结果。

Abstract

Masked Image Modeling (MIM) is a technique in Self-supervised Learning that focuses on acquiring detailed visual representations from unlabeled images by estimating the missing pixels in randomly masked sections.

发现论文，激发创造

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现MIM可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即A^2MIM，可用于Transformers和CNNs网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

MimCo: 带对比教师的遮蔽图像建模预训练

本文提出了一种名为MimCo的新型、灵活的预训练框架，通过两阶段的预训练，将MIM和对比学习相结合，提高了MIM预训练表示的线性可分性，取得了优越的性能。

Sep, 2022

Img2Vec: Token-Diversity 高的教师帮助掩蔽自编码器

本文提出了一种名为Img2Vec的管道，用于深层特征下的掩码图像建模。该框架效果优异，表现出卓越的性能，可在视觉任务中实现优异的综合性能。

Apr, 2023

探究遮罩图像建模中的数据缩放

本文旨在通过在使用Coyo-700M数据集进行实验，探究遮蔽图像建模(MIM)方法在不同大小和模型的情况下，进行下游任务的表现变化，并发现了MIM在训练数据规模较小时提高模型容量的效果、强重构目标能增加模型在下游任务中的容量，以及大多数情况下，MIM预训练是数据不可知的。这些发现为未来的MIM研究提供了有价值的见解。

May, 2023

通过减少模型能力浪费来改进基于像素的MIM

本文通过一系列实证研究确认了基于像素的遮罩图像建模存在的限制，并提出一种利用来自浅层的低级特征辅助像素重建的新方法。将该设计纳入基本方法 MAE 中，我们减少了基于像素的遮罩图像建模的建模能力浪费，提高了其收敛性并在多个下游任务中取得了实质性的改进。据我们所知，我们是首次系统研究多级特征融合在类似标准 Vision Transformer（ViT）的各向同性架构中的应用。值得注意的是，当应用于较小的模型（例如 ViT-S）时，我们的方法在微调、线性探测和语义分割等方面取得了显著的性能提升。代码和模型可在此 https 链接获得。

Aug, 2023

利用遮盖图像建模来改善受监督的表征学习

通过将MIM集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于Transformer的解码器，并引入一个基于遮蔽图像输入的MIM任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

DailyMAE：朝着一天内预训练掩膜自编码器

本研究提出了有效的训练方案，以降低数据加载瓶颈和维持预训练性能，实现了高效的自监督学习训练，为更广泛的可访问性和推动自监督学习研究的进展铺平了道路。

Mar, 2024

遮罩图像建模：一项综述

本研究调查了遮罩图像建模（MIM）这一强大的自监督学习技术在计算机视觉中的最新研究进展。通过对重构和对比学习两种实现MIM的方式进行分类，我们不仅构建了一个全面的分类法，并审查了近年来的重要论文，还识别了研究空白并提出了未来研究的多个方向。

Aug, 2024

针对掩蔽图像建模的成员推断攻击

本研究关注于掩蔽图像建模（MIM）在视觉识别中的数据隐私问题，提出了首个针对MIM预训练图像编码器的成员推断攻击方法。通过模拟MIM的预训练过程并获取重建误差，研究显示该攻击能够有效识别图像是否属于预训练数据集，相较于基线方法取得了更优异的结果，揭示了MIM在隐私保护方面的潜在风险。

Aug, 2024