BIM: 基于块的自监督学习与图像模型掩膜

Nov, 2023

BIM: 基于块的自监督学习与图像模型掩膜

BIM: Block-Wise Self-Supervised Learning with Masked Image Modeling

Yixuan Luo, Mengye Ren, Sai Qian Zhang

TL;DR我们引入了一种新的学习框架，即分块式遮蔽图像建模（BIM），用于解决遮蔽图像建模（MIM）的计算资源需求高的问题，并在保持卓越性能的同时大大降低内存消耗，同时实现多个深度不同的 DNN 骨干的并发训练，从而降低与单独训练每个 DNN 骨干相比的计算成本。这为资源受限的 MIM 训练提供了有前景的解决方案。

Abstract

Like masked language modeling (MLM) in natural language processing, masked image modeling (MIM) aims to extract valuable insights from image patches to enhance the feature extraction capabilities of the underlying deep neural network (DNN). Contrasted with other training paradigms like supervised learning and unsupervised contrastive learning, →

masked image modeling deep neural network bim computational resources performance

发现论文，激发创造

基于遮罩的图像建模技术在三维医学图像分析中的应用进展

本文研究了遮蔽图像建模技术在医学三维图像分析中的应用，发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度，使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务，轻量级的解码器或投影头设计能够加快训练速度并降低成本，而 MIM 方法在不同的图像分辨率和标签数据比例下都具有良好的效果。

Apr, 2022

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

局部多尺度重建的遮盖图像建模

本文提出了一种 Masked Image Modeling（MIM）的改进方案，通过在多个不同尺度的层次上进行重构任务，显式地指导多个层次的编码器，在减小预训练负担的同时，在分类、检测和分割任务中取得可比或更好的性能。

Mar, 2023

BIMM: 基于脑神经灵感的视频表示学习

我们提出了脑启发的 Masked 建模 (BIMM) 框架，通过学习图像和视频表示，使用视觉变换器 (ViT) 作为骨干，并在训练过程中采用部分参数共享策略，在模拟人脑的视觉通路中取得了优越的性能。

May, 2024

通过动态令牌变形进行图像遮盖建模

基于动态令牌变形的掩码图像建模（DTM）是一种有前景的自监督学习方法，可应用于不同的 SSL 框架，在不引入额外的训练成本的情况下有效改进表现，并经过多个实验证明其在各种下游任务上的可迁移性。

Dec, 2023

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022