用向量量化视觉令牌器进行遮蔽图像建模的 BEiT v2

Aug, 2022

用向量量化视觉令牌器进行遮蔽图像建模的 BEiT v2

BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei

TL;DR本文提出使用语义丰富的视觉分词器作为蒙版预测的重构目标，以将蒙版图像建模从像素级别推广到语义级别，包括矢量量化知识蒸馏、预训练 Vision Transformers 和图像聚合策略等，实现了对图像分类和语义分割的超过现有 MIM 方法的表现。

Abstract

masked image modeling (MIM) has demonstrated impressive results in self-supervised representation learning by recovering corrupted image patches. However, most existing studies operate on low-level image pixels,

masked image modeling self-supervised representation learning semantic-rich visual tokenizer vector-quantized knowledge distillation vision transformers

发现论文，激发创造

mc-BEiT：针对图像 BERT 预训练的多选项离散化

本文提出了一种改进的 BERT-style 图像预训练方法，即 mc-BEiT，通过以多项选择形式指导被屏蔽的图像贴片生成监督信息，以及提高感知水平，以获取更好的视觉词汇标记。实验结果显示，相较于其他方法，预训练的 mc-BEiT 在图像分类，目标检测和语义分割任务中表现更为优异。

Mar, 2022

BEiT: 图像 Transformer 的 BERT 预训练

本研究介绍了一种名为 BEiT 的自监督视觉表示模型，使用双向编码器表示图像转换器并进行了预训练，效果显著。

Jun, 2021

通过减少模型能力浪费来改进基于像素的 MIM

本文通过一系列实证研究确认了基于像素的遮罩图像建模存在的限制，并提出一种利用来自浅层的低级特征辅助像素重建的新方法。将该设计纳入基本方法 MAE 中，我们减少了基于像素的遮罩图像建模的建模能力浪费，提高了其收敛性并在多个下游任务中取得了实质性的改进。据我们所知，我们是首次系统研究多级特征融合在类似标准 Vision Transformer（ViT）的各向同性架构中的应用。值得注意的是，当应用于较小的模型（例如 ViT-S）时，我们的方法在微调、线性探测和语义分割等方面取得了显著的性能提升。代码和模型可在此 https 链接获得。

Aug, 2023

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

iBOT: 在线分词的图像 BERT 预训练

本研究研究了掩蔽图像建模，并指出在使用语义上有意义的视觉分词器时的优势和挑战，提出了一种自我监督的框架 iBOT，可以使用在线分词器执行掩蔽预测。研究表明，iBOT 可以获得显着的结果，并在图像分类和下游任务中获得领先的结果。

Nov, 2021

通过动态令牌变形进行图像遮盖建模

基于动态令牌变形的掩码图像建模（DTM）是一种有前景的自监督学习方法，可应用于不同的 SSL 框架，在不引入额外的训练成本的情况下有效改进表现，并经过多个实验证明其在各种下游任务上的可迁移性。

Dec, 2023

SimMIM: 简易掩模图像建模框架

本文提出了 SimMIM 框架，通过探究每一个组件的简单设计方案，发现简单设计方案表现强劲，并在 ImageNet-1K 数据集上，使用 ViT-B 预训练和微调达到了 83.8％的 top-1 精度，并使用此方法促进 3B 模型（SwinV2-G）的训练，在四个代表性的视觉基准数据集中实现了最新的技术成果。

Nov, 2021

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

HiViT: 分层视觉 Transformer 遇见掩蔽图像建模

本文提出了一种名为 HiViT 的分层视觉转换器的设计，该设计在 MIM 中具有高效性和良好的性能，通过关闭 Swim Transformer 的局部对单元操作并显示层次结构，将蒙版单元序列化为普通视觉变换器，经实证研究表明，在 ImageNet-1K 上运行 MAE，HiViT-B 相对于 ViT-B 的准确率提高了 0.6％，比 Swin-B 快了 1.9 倍，表现提高泛化到检测和分割等下游任务。

May, 2022