利用深层 ViT 特征作为密集的视觉描述符
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
自本文中,我们对各种自监督视觉变换器(ViTs)进行了比较分析,重点研究了它们的局部代表能力。我们设计了一个评估框架,分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现,基于对比学习的方法如 DINO 产生了更通用的局部表示,可以立即应用于无参数调整的下游任务,而掩蔽图像建模的方法中学习的嵌入具有高方差特征,对于大多数下游任务没有有用信息。此外,通过对本工作的基准和 Scale-MAE 的分析,我们证明了移除这些高方差特征对 k-NN 算法的改进。最后,我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。
Dec, 2023
本文提出了一种基于预训练和自监督方法的计算机视觉模型,该模型使用大量的数据自动构建一种多样的图像数据集,能够在各种任务和图像的情况下快速、高效地生成功能强大的视觉特征。
Apr, 2023
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
该研究采用 21 个不同的预训练 Vision Transformer 架构,评估其在纹理识别中的性能,并与卷积神经网络和手工设计模型进行比较。结果显示,Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型,尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中,ViT-B with DINO pre-training,BeiTv2,Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外,尽管 GFLOPs 和参数数量较高,ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短,从而实现了更高的效率。
Jun, 2024
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
我们提出了一种语义外观传输的方法,通过利用预先训练的和固定的视觉 Transformer(ViT)模型,提取深度 ViT 特征中结构和外观的新型解耦表示,然后通过 ViT 特征空间中的目标函数将这些表示相互编织在一起,提出了两种语义外观传输的框架 ——Splice 和 SpliceNet。
Nov, 2023
本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络(ConvNets)在检测各种类型的深度伪造方面的有效性,重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调,在利用自监督学习和变换器进行深度伪造检测时,我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性,且同时需要较少的计算资源。
May, 2024
通过修剪与不必要特征相关的注意力头和鼓励输入梯度正交性,我们提出一种方法提高深度学习模型对分布变化的适应性并增加特征的多样性和互补性。
Aug, 2023