本地 - 全局自监督视觉表示学习 | BriefGPT

Oct, 2023

本地 - 全局自监督视觉表示学习

Local-Global Self-Supervised Visual Representation Learning

Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi

TL;DR本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法，通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法，借助视觉变换器（ViT）作为骨干网络，从而生成图像级别和补丁级别的表示。结果显示，我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。

Abstract

Self-supervised representation learning methods mainly focus on image-level instance discrimination. This study explores the potential benefits of incorporating patch-level discrimination into existing methods to enhance the quality of learned representations by simultaneously looking at local and global visual features. Towards this idea, we present a strai

self-supervised learning visual representations local-global representation learning patch-wise representation learning vision transformer (vit)

发现论文，激发创造

针对自监督视觉变换器的补丁级别表示学习

本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务，利用 ViT 的特性，在无需人工注释的情况下提高不同类型视觉任务的性能，通过训练神经网络对各种图像的无监督学习来实现。

Jun, 2022

分析自监督视觉变压器的局部表征

自本文中，我们对各种自监督视觉变换器（ViTs）进行了比较分析，重点研究了它们的局部代表能力。我们设计了一个评估框架，分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现，基于对比学习的方法如 DINO 产生了更通用的局部表示，可以立即应用于无参数调整的下游任务，而掩蔽图像建模的方法中学习的嵌入具有高方差特征，对于大多数下游任务没有有用信息。此外，通过对本工作的基准和 Scale-MAE 的分析，我们证明了移除这些高方差特征对 k-NN 算法的改进。最后，我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。

Dec, 2023

VICRegL：本地视觉特征的自监督学习

本文提出了一种名为 VICRegL 的新方法，该方法可以同时学习好的全局和局部特征，从而在检测和分割任务上取得出色的性能，同时保持分类任务上的良好性能。

Oct, 2022

基于全局和局部表示的多网络对比学习

提出了基于全局和局部特征表示的多网络对比学习框架，通过多个网络引入自监督对比学习的全局和局部特征信息，并通过对比由多个网络生成的嵌入对来学习图像不同尺度上的特征信息，并扩展对比样本数，提高了模型的训练效率。在三个基准数据集上的线性评估结果表明，我们的方法优于几种现有的经典自监督学习方法。

Jun, 2023

自监督表示学习的定位加速

通过数据驱动的前景显著性估计和复制粘贴来生成图像视图，实现对背景不变性的学习，从而训练代表性忽略背景内容并专注于前景的对比学习模型，并实现了在 ImageNet 分类和 PASCAL VOC、MSCOCO 目标检测上的显著性能提升。

Apr, 2020

弱监督语义分割：渐进式补丁学习

本文提出了一种新的渐进式补丁学习方法来提高弱监督语义分割中的局部细节提取，进一步将特征破坏和补丁学习扩展到多级粒度，同时与多阶段优化策略相结合来提供模型对不同程度的特征提取能力。此方法超越了大多数现有的弱监督语义分割方法，在 PASCAL VOC 2012 数据集上取得了出色的表现。

Sep, 2022

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

对比学习中的实例相似度建模

本文提出了一种新的图像混合方法 PatchMix，用于对比学习中的视觉 Transformer，以对图像之间的相似性进行建模，并证明该方法比现有的方法在多项实验中表现更好。

Jun, 2023

PatchVAE：学习本地隐藏码进行识别

本文研究无监督学习方法，通过提出基于 PatchVAE 的中层样式表述表示，结合小图像块的处理，以此来提高自动分类识别任务的精度表现。实验结果显示，相比传统的 VAEs 方法，本文的方法取得了更好的识别性能和效果。

Apr, 2020

弱监督目标分类和发现的深度补丁学习

本文提出了一种基于弱监督的学习方法，通过将图像视为一个包中的实例将其融入到深度神经网络中，将弱监督的多实例学习约束与深度神经网络集成在一起，并采用端到端的方式优化网络以实现对象分类和发现任务。在 PASCAL VOC 数据集上的测试表明，该方法在对象分类方面可以获得最先进的性能，并且在对象发现方面也具有很强的竞争力，并且测试速度比竞争者更快。

May, 2017