Transformer 在屏蔽图像建模中证明能够学习特征 - 位置相关性

Mar, 2024

Transformer 在屏蔽图像建模中证明能够学习特征 - 位置相关性

Transformers Provably Learn Feature-Position Correlations in Masked Image Modeling

Yu Huang, Zixin Wen, Yuejie Chi, Yingbin Liang

TL;DR本文提供了首个关于 MIM 自监督预训练中使用 softmax 注意力的一层 transformer 的端到端理论，旨在解释 transformer 的理论机制，并分析其训练动态，以同时考虑输入和位置嵌入，在数据分布中产生局部和多样化的注意力模式，突出特征位置相关性和位置相关性。

Abstract

masked image modeling (MIM), which predicts randomly masked patches from unmasked ones, has emerged as a promising approach in self-supervised vision pretraining. However, the theoretical understanding of MIM is rather limited, especially with the foundational architecture of

masked image modeling self-supervised vision pretraining transformers softmax attention spatial structures

发现论文，激发创造

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

学生不应看到的内容：基于注意力引导的遮蔽图像建模

本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势，即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为，在 MIM 中，图像记号掩蔽与文本中的掩蔽不同，因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务，我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想，其中教师 Transformer 编码器生成关注图，该图我们用于指导学生的掩蔽。因此，我们引入了一种新的掩蔽策略，称为注意力引导掩蔽 (AttMask)，并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认，AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。

Mar, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

定位预测作为一种有效的预训练策略

本文提出了一种新颖的、简单的、基于位置预测的 Transformer 自监督预训练策略，可以提高 NLP、语音和视觉领域的性能，并使不使用位置嵌入的 Transformers 超越使用完整位置信息的 Transformers。

Jul, 2022

观察、分析与解决：通过带掩码图像建模预训练探索强大轻量化视觉 Transformer

通过对轻量级视觉 Transformer（ViTs）的掩码图像建模（MIM）预训练方法与对比学习（CL）预训练方法在不同数据规模下的行为对比研究，观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现，进而提出了预训练退火策略来解决这一问题，实验证明了该方法在不同视觉任务中的有效性。

Apr, 2024

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

通过动态令牌变形进行图像遮盖建模

基于动态令牌变形的掩码图像建模（DTM）是一种有前景的自监督学习方法，可应用于不同的 SSL 框架，在不引入额外的训练成本的情况下有效改进表现，并经过多个实验证明其在各种下游任务上的可迁移性。

Dec, 2023

有效预训练的蒙版标记的新特性

通过优化蒙面标记以解决自我监督学习中的效率问题，该方法称为蒙面标记优化（MTO），可实现与最新方法相当的预训练性能，减少近 50% 的预训练时期。

Apr, 2024

预训练与随机正交投影图像建模

使用随机正交投影而非二元屏蔽的图像建模框架 Random Orthogonal Projection Image Modeling（ROPIM）能够实现在局部变化的屏蔽程度下屏蔽整个空间图像区域，并展现了与基于裁剪屏蔽的方法相比具有更优越的性能。

Oct, 2023

自我监督视觉变换器学习了什么？

对比学习和掩模图像建模的比较研究，发现自监督视觉变换器（ViTs）在表示和下游任务性能方面具有不同的属性，可以互补，最简单的协调方法可以帮助利用这些方法的优点。

May, 2023