学生不应看到的内容：基于注意力引导的遮蔽图像建模

ECCVMar, 2022

学生不应看到的内容：基于注意力引导的遮蔽图像建模

What to Hide from Your Students: Attention-Guided Masked Image Modeling

Ioannis Kakogeorgiou, Spyros Gidaris, Bill Psomas, Yannis Avrithis, Andrei Bursuc...

TL;DR本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势，即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为，在 MIM 中，图像记号掩蔽与文本中的掩蔽不同，因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务，我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想，其中教师 Transformer 编码器生成关注图，该图我们用于指导学生的掩蔽。因此，我们引入了一种新的掩蔽策略，称为注意力引导掩蔽 (AttMask)，并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认，AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。

Abstract

transformers and masked language modeling are quickly being adopted and explored in computer vision as vision →

transformers masked language modeling computer vision vision transformers masked image modeling

发现论文，激发创造

通过动态令牌变形进行图像遮盖建模

基于动态令牌变形的掩码图像建模（DTM）是一种有前景的自监督学习方法，可应用于不同的 SSL 框架，在不引入额外的训练成本的情况下有效改进表现，并经过多个实验证明其在各种下游任务上的可迁移性。

Dec, 2023

有效预训练的蒙版标记的新特性

通过优化蒙面标记以解决自我监督学习中的效率问题，该方法称为蒙面标记优化（MTO），可实现与最新方法相当的预训练性能，减少近 50% 的预训练时期。

Apr, 2024

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

Transformer 在屏蔽图像建模中证明能够学习特征 - 位置相关性

本文提供了首个关于 MIM 自监督预训练中使用 softmax 注意力的一层 transformer 的端到端理论，旨在解释 transformer 的理论机制，并分析其训练动态，以同时考虑输入和位置嵌入，在数据分布中产生局部和多样化的注意力模式，突出特征位置相关性和位置相关性。

Mar, 2024

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

M2T：双重掩码变换加速解码

本文演示了在神经图像压缩中应用面向遮蔽令牌预测训练的双向变压器以实现最先进的结果。通过使用预定义的、确定性调度，本文证明这些模型在图像压缩方面表现良好。同时在训练过程中使用面向遮蔽的关注力以及在推断过程中使用激活缓存，能够使我们的模型显著地加速（推理速度提高了 4 倍），同时只需轻微提高比特率。

Apr, 2023

超越图像 - 文本匹配：多模态变换器中使用引导掩模进行动词理解

本研究提出了一种指导掩蔽的探测方法，评估最近的多模态图像语言变形器模型的学习表示能力，重点研究考虑感兴趣区域（ROI）特征作为输入标记的多模态模型，通过指导掩蔽分析动词的理解能力，在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中，我们展示出这些模型能够以高准确度预测正确的动词。

Jan, 2024

自主训练的掩蔽关注引导的掩蔽图像建模与噪音约束教师 (SMART) 用于医学图像分析

Hierarchical shifted window transformers (Swin) were architecturally enhanced with semantic class attention for self-supervised attention guided co-distillation with masked image modeling (MIM), resulting in SMART. SMART, pretrained with 10,412 unlabeled 3D computed tomography (CTs), demonstrated high performance in multiple downstream tasks involving lung cancer (LC) analysis, including predicting immunotherapy response, LC recurrence, LC segmentation, and unsupervised clustering of organs in the chest and abdomen, without finetuning.

Oct, 2023