上下文视觉转换器用于稳健表征学习

May, 2023

上下文视觉转换器用于稳健表征学习

Contextual Vision Transformers for Robust Representation Learning

Yujia Bao, Theofanis Karaletsos

TL;DR提出了一种称为 Contextual Vision Transformers (ContextViT) 的方法，能够为表现出分组结构的图像生成稳健的特征表示。该方法使用额外的上下文令牌来编码组特定信息，并将其附加到输入图像令牌中，从而使模型能够解释特定于组的协变结构，同时保持跨组共享的核心视觉特征，以提高模型对图像的泛化能力。在监督微调和自监督学习任务中均表现良好。

Abstract

We present contextual vision transformers (ContextViT), a method for producing robust feature representations for images exhibiting grouped structure such as →

contextual vision transformers grouped structure feature representations covariates supervised fine-tuning

发现论文，激发创造

全局上下文视觉 Transformer

本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Jun, 2022

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

LT-ViT：用于多标签胸部 X 射线分类的视觉 Transformer

利用 LT-ViT 来从多个尺度聚合信息，实现对胸部 X 光图像进行纯可视化模型训练，其优于基于纯 ViTs 的现有方法，在两个公开 CXR 数据集上表现出最先进的性能，并且对于其他预训练方法具有泛化性且不依赖于模型初始化，并且能够实现模型的可解释性而无需使用 grad-cam 及其变种。

Nov, 2023

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

DualToken-ViT：具有双重令牌融合的位置感知高效视觉 Transformer

提出了一种轻量级和高效的视觉变换模型 DualToken-ViT，它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构，并使用位置感知的全局标记来丰富全局信息，并改进了图像的位置信息，通过在图像分类、物体检测和语义分割任务上进行广泛实验，展示了 DualToken-ViT 的有效性，其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率，而在只有 0.5G 和 1.0G 的 FLOPs 下，我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。

Sep, 2023

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021