语义图一致性：超越补丁对无监督视觉变换器进行正则化

Jun, 2024

语义图一致性：超越补丁对无监督视觉变换器进行正则化

Semantic Graph Consistency: Going Beyond Patches for Regularizing Self-Supervised Vision Transformers

Chaitanya Devaguptapu, Sumukh Aithal, Shrinivas Ramasubramanian, Moyuru Yamada, Manohar Kaul

TL;DR我们介绍了一种新的语义图一致性（SGC）模块，利用视觉转换器（ViTs）的路径标记来规范 ViT 基于自监督学习（SSL）方法，并有效利用路径标记。我们将图像重新理论化为图形，将图像补丁作为节点，并通过显式的图神经网络消息传递将关系感应偏置纳入 SSL 框架。我们的语义图一致性损失作为正则化器，利用 ViTs 的未充分利用的路径标记构建图形，并强制在图像的多个视图之间保持图形特征的一致性。包括 ImageNet、RESISC 和 Food-101 的广泛实验表明我们的方法大大提高了所学特征的质量，当使用有限的标记数据进行线性评估时，性能提升了 5-10%。这些实验以及一整套全面测试表明了我们方法在各种情况下的潜力。

Abstract

self-supervised learning (SSL) with vision transformers (ViTs) has proven effective for representation learning as demonstrated by the imp

self-supervised learning vision transformers semantic graph consistency representation learning graph neural networks

发现论文，激发创造

针对自监督视觉变换器的补丁级别表示学习

本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务，利用 ViT 的特性，在无需人工注释的情况下提高不同类型视觉任务的性能，通过训练神经网络对各种图像的无监督学习来实现。

Jun, 2022

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

本地 - 全局自监督视觉表示学习

本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法，通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法，借助视觉变换器（ViT）作为骨干网络，从而生成图像级别和补丁级别的表示。结果显示，我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。

Oct, 2023

规模化半监督视觉 Transformer 模型

该研究探讨了图像 Transformer（ViT）的半监督学习（SSL），提出了一种新的 SSL 流程和一种概率伪混合机制，Semi-ViT 可以实现与卷积神经网络相媲美或更好的性能，并且具有可扩展性。

Aug, 2022

使用场景图将结构化表示法加入预训练视觉与语言模型

研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

May, 2023

使用语义有意义的标记理解视觉表示学习的效果

在视觉 - 语言预训练框架中，通过提供语义上有意义的视觉标记给 transformer 编码器，本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制，并通过使用现成的分割和场景图模型，提取了实例分割掩码（称为有形标记）和关系动作（称为无形标记）的表示，从而在视觉 side 的 transformer 预训练中引入了这些新增的标记，并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明，在 COCO 数据集上，相比 ViTs，在文本到图像（+47%）和图像到文本（+44%）检索任务中学到了更好的表示质量，并且在组合性评估基准（如 ARO（+18%）和 Winoground（+10%））上展示了优势。

May, 2024

PaCa-ViT: 在 Vision Transformers 中学习 Patch-to-Cluster Attention

该研究论文提出了一种基于 Patch-to-Cluster attention 的 ViT 模型，通过聚类学习从而获得更好的记号以及更好的模型解释性能，并在 ImageNet-1k、MS-COCO 物体检测和实例分割以及 MIT-ADE20k 语义分割三个基准测试中获得了比 SWin 和 PVTs 更好的表现。

Mar, 2022

自我监督的少样本变换器

本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力，发现在相同的少样本学习框架下，用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能；本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的 ViT 少样本训练框架，用于改善 token 依赖性问题，并通过实验证明了 SUN 优于其他同类技术，并超过了 CNN 的最新研究成果。

Mar, 2022

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

基于渐进语义引导的视觉变形器用于零样本学习

我们提出了一种用于零样本学习的渐进式语义引导视觉 Transformer（ZSLViT），通过语义嵌入令牌学习改进视觉 - 语义对应关系，发现语义相关的视觉令牌，并且通过弱语义 - 视觉对应关系融合来舍弃与语义无关的视觉信息，从而在零样本学习中实现准确的视觉 - 语义交互作用，我们的 ZSLViT 在 CUB、SUN 和 AWA2 等三个常用基准数据集上取得了显著的性能提升。

Apr, 2024