SemanticMIM: 结合语义压缩的屏蔽图像建模用于通用视觉表示

Jun, 2024

SemanticMIM: 结合语义压缩的屏蔽图像建模用于通用视觉表示

SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation

Yike Yuan, Huanzhang Dou, Fengjun Guo, Xi Li

TL;DR本研究提出了一种简洁而有效的框架 SemanticMIM，以整合遮罩图像建模（MIM）和对比学习（CL）的优势，用于通用视觉表示。通过对 CL 和 MIM 进行彻底的比较分析，揭示了它们互补优势根源于压缩和重建两个不同阶段，而 SemanticMIM 利用代理架构自定义图像和掩码令牌之间的交互，以丰富的语义和位置感知性实现通用视觉表示。通过广泛的定性和定量评估，我们证明了 SemanticMIM 有效地融合了 CL 和 MIM 的优点，显著提升了性能和特征的线性可分性，并提供了引人注目的注意力响应可视化。

Abstract

This paper represents a neat yet effective framework, named semanticmim, to integrate the advantages of masked image modeling (MIM) and contrastive learning (CL) for →

semanticmim masked image modeling contrastive learning general visual representation compression and reconstruction

发现论文，激发创造

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

自监督视觉表示学习的孪生图像建模

该研究提出了一种新的自监督学习方法 Siamese Image Modeling，它通过预测同一图像的不同视图的表示来达到语义对齐和空间敏感的目的，这种方法在 ImageNet 微调和线性探测、COCO 和 LVIS 检测以及 ADE20k 语义分割等多项下游任务中都取得了更好的效果。

Jun, 2022

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

层次接枝预训练：将对比学习和遮蔽图像建模结合，实现低标签表示学习

本文提出层级嫁接预训练 (Layer Grafted Pre-training) 方法，以笔者实验观察到的低层适合 MIM，高层适合 CL 为出发点，采用简单的 “顺序级联” 方式依次训练，旨在学习好的视觉表示。在 ImageNet-1k 数据集上，结合 ViT-B/16 能够取得 65.5% 的 1% few-shot 学习 Top-1 准确率，在无必要的改进的情况下提高了 MIM 和 CL 的基线水平 14.4% 和 2.1%。

Feb, 2023

基于遮罩的图像建模技术在三维医学图像分析中的应用进展

本文研究了遮蔽图像建模技术在医学三维图像分析中的应用，发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度，使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务，轻量级的解码器或投影头设计能够加快训练速度并降低成本，而 MIM 方法在不同的图像分辨率和标签数据比例下都具有良好的效果。

Apr, 2022

MimCo: 带对比教师的遮蔽图像建模预训练

本文提出了一种名为 MimCo 的新型、灵活的预训练框架，通过两阶段的预训练，将 MIM 和对比学习相结合，提高了 MIM 预训练表示的线性可分性，取得了优越的性能。

Sep, 2022

SimMIM: 简易掩模图像建模框架

本文提出了 SimMIM 框架，通过探究每一个组件的简单设计方案，发现简单设计方案表现强劲，并在 ImageNet-1K 数据集上，使用 ViT-B 预训练和微调达到了 83.8％的 top-1 精度，并使用此方法促进 3B 模型（SwinV2-G）的训练，在四个代表性的视觉基准数据集中实现了最新的技术成果。

Nov, 2021

BIM: 基于块的自监督学习与图像模型掩膜

我们引入了一种新的学习框架，即分块式遮蔽图像建模（BIM），用于解决遮蔽图像建模（MIM）的计算资源需求高的问题，并在保持卓越性能的同时大大降低内存消耗，同时实现多个深度不同的 DNN 骨干的并发训练，从而降低与单独训练每个 DNN 骨干相比的计算成本。这为资源受限的 MIM 训练提供了有前景的解决方案。

Nov, 2023