自监督视觉预训练的损坏图像建模

ICLRFeb, 2022

自监督视觉预训练的损坏图像建模

Corrupted Image Modeling for Self-Supervised Visual Pre-Training

Yuxin Fang, Li Dong, Hangbo Bao, Xinggang Wang, Furu Wei

TL;DR本篇论文介绍了 Corrupted Image Modeling (CIM) 用于图像自监督预训练，通过使用额外的生成器和小型可训练 BEiT 对输入图像进行损坏来实现，而不是使用人工 MASK 令牌，并在训练后可以将增强器用作下游任务的高容量视觉编码器。CIM 是一种通用且灵活的视觉预训练框架，适用于各种网络结构，使用非 Siamese 框架首次证明了 ViT 和 CNN 都可以学习到丰富的视觉表示，并在图像分类和语义分割方面取得了令人满意的结果。

Abstract

We introduce corrupted image modeling (CIM) for self-supervised visual pre-training. CIM uses an auxiliary generator with a small trainable beit to corrupt the input image instead of using artificial [MASK] token

corrupted image modeling self-supervised visual pre-training beit enhancer network visual encoder

发现论文，激发创造

自监督视觉预训练的相关图像模型

介绍了一种新的自监督视觉预训练方法 - Correlational Image Modeling（CIM），该方法执行一个简单的前提任务，即随机从输入图像中裁剪图像区域（实例），并预测实例和上下文之间的相关性图。通过几个关键设计，使得 CIM 成为一个非平凡且有意义的自监督任务，取得了与目前最先进的自监督和转移基准相当或更好的表现。

Mar, 2023

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

BEiT: 图像 Transformer 的 BERT 预训练

本研究介绍了一种名为 BEiT 的自监督视觉表示模型，使用双向编码器表示图像转换器并进行了预训练，效果显著。

Jun, 2021

MIMIR：基于互信息的对抗性鲁棒性的遮蔽图像建模

本论文提出了一种新颖的防御方法 MIMIR，通过在预训练阶段利用 Masked Image Modeling 构建不同的对抗训练方法，从而提高 Vision Transformers 的鲁棒性和性能。实验证明，相较于基线模型，MIMIR 在 CIFAR-10 和 ImageNet-1K 上的（自然和对抗）准确率平均提高了 4.19％和 5.52％。

Dec, 2023

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

MimCo: 带对比教师的遮蔽图像建模预训练

本文提出了一种名为 MimCo 的新型、灵活的预训练框架，通过两阶段的预训练，将 MIM 和对比学习相结合，提高了 MIM 预训练表示的线性可分性，取得了优越的性能。

Sep, 2022

MIMIC：蒙面图像预训练并混合对比细调用于面部表情识别

利用自监督学习方法在中等规模的图像数据集上，对视觉 Transformer 进行预训练，并通过对比微调的方式有效减少面部数据集和面部表情识别数据集之间的领域差异，实现更好的表征学习。

Jan, 2024

CIMGEN：有限数据下基于预训练生成模型的受控图像操纵

提出的方法通过修改语义图像来灵活地生成和编辑图像，利用预先训练的图像到图像转换 GAN 进行改进，并展示了在图像伪造和图像编辑领域中的性能和应用，以及对抗深度学习图像取证技术的有效性和开发鲁棒且可推广的图像取证工具的紧迫需求。

Jan, 2024