自我监督视觉变换器学习了什么？

ICLRMay, 2023

自我监督视觉变换器学习了什么？

What Do Self-Supervised Vision Transformers Learn?

Namuk Park, Wonjae Kim, Byeongho Heo, Taekyung Kim, Sangdoo Yun

TL;DR对比学习和掩模图像建模的比较研究，发现自监督视觉变换器（ViTs）在表示和下游任务性能方面具有不同的属性，可以互补，最简单的协调方法可以帮助利用这些方法的优点。

Abstract

We present a comparative study on how and why contrastive learning (CL) and masked image modeling (MIM) differ in their representations and in their performance of →

contrastive learning masked image modeling self-supervised vision transformers representation spaces downstream tasks

发现论文，激发创造

观察、分析与解决：通过带掩码图像建模预训练探索强大轻量化视觉 Transformer

通过对轻量级视觉 Transformer（ViTs）的掩码图像建模（MIM）预训练方法与对比学习（CL）预训练方法在不同数据规模下的行为对比研究，观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现，进而提出了预训练退火策略来解决这一问题，实验证明了该方法在不同视觉任务中的有效性。

Apr, 2024

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

层次接枝预训练：将对比学习和遮蔽图像建模结合，实现低标签表示学习

本文提出层级嫁接预训练 (Layer Grafted Pre-training) 方法，以笔者实验观察到的低层适合 MIM，高层适合 CL 为出发点，采用简单的 “顺序级联” 方式依次训练，旨在学习好的视觉表示。在 ImageNet-1k 数据集上，结合 ViT-B/16 能够取得 65.5% 的 1% few-shot 学习 Top-1 准确率，在无必要的改进的情况下提高了 MIM 和 CL 的基线水平 14.4% 和 2.1%。

Feb, 2023

特征蒸馏 Fine-tuning 中，对比学习与图像遮盖模型不相上下

研究发现通过简单的特征蒸馏，可以极大地提高预训练方法的微调性能，使其与基于遮挡图像模型的方法一样强大，在从事未来研究时，可以更加注重学习表示的普适性和可扩展性，而不需要过分关注其优化的友好性。

May, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

CLIPSelf：视觉 Transformer 用于开放词汇密集预测的自我精简

该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析，并提出了一种名为 CLIPSelf 的方法，该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中，从而在开放式词汇密集预测任务中取得了最新的最优性能。

Oct, 2023

教学至关重要：探讨监督在视觉 Transformer 中的作用

研究显示 ViTs 在不同的学习方法下能够学习不同的行为，并发现了一些在不同学习方法下相似的 ViT 行为，比如 Offset Local Attention Heads。同时发现对比自监督方法学习的特征与显式监督方法学习的特征竞争力相当，并且在某些情况下对于部分任务还优于显式监督方法。此外，基于重构模型的表示与对比自监督模型的表示存在非平凡的相似性。

Dec, 2022

MimCo: 带对比教师的遮蔽图像建模预训练

本文提出了一种名为 MimCo 的新型、灵活的预训练框架，通过两阶段的预训练，将 MIM 和对比学习相结合，提高了 MIM 预训练表示的线性可分性，取得了优越的性能。

Sep, 2022

基于任务内互注意力的视觉 Transformer 模型用于少样本学习

基于 Vision Transformer (ViT) 架构，本文提出了一种用于少样本学习的任务内互注意方法，通过交换支持集和查询集的类别标记与图像片段标记，实现了互注意，从而加强了类内表征，并促进了同一类别样本之间的相似性。与最先进的基准方法相比，在五个常见的少样本分类基准任务中，本文提出的框架在 5-shot 和 1-shot 情况下表现出的性能更好，同时具有简单、高效的计算能力。

May, 2024