分析自监督视觉变压器的局部表征

Dec, 2023

分析自监督视觉变压器的局部表征

Analyzing Local Representations of Self-supervised Vision Transformers

Ani Vanyan, Alvard Barseghyan, Hakob Tamazyan, Vahan Huroyan, Hrant Khachatrian...

TL;DR自本文中，我们对各种自监督视觉变换器（ViTs）进行了比较分析，重点研究了它们的局部代表能力。我们设计了一个评估框架，分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现，基于对比学习的方法如 DINO 产生了更通用的局部表示，可以立即应用于无参数调整的下游任务，而掩蔽图像建模的方法中学习的嵌入具有高方差特征，对于大多数下游任务没有有用信息。此外，通过对本工作的基准和 Scale-MAE 的分析，我们证明了移除这些高方差特征对 k-NN 算法的改进。最后，我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。

Abstract

In this paper, we present a comparative analysis of various self-supervised Vision Transformers (ViTs), focusing on their local representative power. Inspired by large language models, we examine the abilities of

self-supervised vision transformers comparative analysis local representative power contrastive learning downstream tasks

发现论文，激发创造

自监督视觉 Transformer 中的新兴特性

本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性，发现自监督 ViT 特征明确包含图像的语义分割信息，在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率，并将这些发现用于自监督方法 DINO 中，通过线性评估，使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。

Apr, 2021

针对自监督视觉变换器的补丁级别表示学习

本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务，利用 ViT 的特性，在无需人工注释的情况下提高不同类型视觉任务的性能，通过训练神经网络对各种图像的无监督学习来实现。

Jun, 2022

探索自我监督视觉变换器用于深伪检测：一种比较分析

本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络（ConvNets）在检测各种类型的深度伪造方面的有效性，重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调，在利用自监督学习和变换器进行深度伪造检测时，我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性，且同时需要较少的计算资源。

May, 2024

利用深层 ViT 特征作为密集的视觉描述符

本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符，提出了基于无监督 DINO-ViT 模型提取特征的简单方法，可用于各种领域的相关应用，包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果，并且较之前的无监督方法有了很大的提高。

Dec, 2021

基于预训练表示的可推广模仿学习

利用自我监督的视觉变换模型及其新出的语义能力，通过聚类外观特征来形成稳定的关键点，从而改善模仿学习策略的泛化能力。本论文介绍了 BC-ViT，一种利用富含 DINO 预训练视觉变换器（ViT）补丁级嵌入的模仿学习算法，以通过示范获取更好的泛化效果。通过对一个多样化的物体操作任务数据集进行模仿学习的评估，证明了这种表示方式能够实现广义行为。为了促进对于模仿学习中泛化问题的进一步研究，我们提供了我们的方法、数据和评估方法。

Nov, 2023

计算机视觉中的活体检测：基于 Transformer 的自监督学习用于人脸反欺骗

本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架，对面部反欺诈任务进行了 Fine-tuning，与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示，ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型，进一步推动了生物识别安全领域的重要进展。

Jun, 2024

在小数据集上通过本地归纳偏置引入提高视觉 Transformer 的性能

本文提出基于自注意力块的局部信息增强模块 LIFE，通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中，在小尺寸图像分类数据集上改进了 ViTs 的性能，并将其推广到目标检测和语义分割等下游任务，在此基础上，引入了一种新的可视化方法 —— 密集注意力 Roll-Out，特别适用于密集预测任务。

May, 2023

本地 - 全局自监督视觉表示学习

本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法，通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法，借助视觉变换器（ViT）作为骨干网络，从而生成图像级别和补丁级别的表示。结果显示，我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。

Oct, 2023

自我监督的少样本变换器

本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力，发现在相同的少样本学习框架下，用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能；本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的 ViT 少样本训练框架，用于改善 token 依赖性问题，并通过实验证明了 SUN 优于其他同类技术，并超过了 CNN 的最新研究成果。

Mar, 2022

自我监督轻量级视觉 Transformer 的深入探讨

本文主要通过使用基于掩码图像建模的 MAE pre-training 方法，即 MAE-lite，来为轻量级 ViTs 的 pre-training 提供配方，并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比，分析和表明了这种 pre-training 的影响，揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用，并开发了一个 distillation 策略来提高 pre-trained representations，从而实现更好的性能。

May, 2022