全局上下文视觉 Transformer

Jun, 2022

Global Context Vision Transformers

Ali Hatamizadeh, Hongxu Yin, Jan Kautz, Pavlo Molchanov

TL;DR本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Abstract

We propose global context vision transformer (GC ViT), a novel architecture that enhances parameter and compute utilization for computer vision tasks. The core of the novel model are global context self-attention module

global context vision transformer self-attention modules vits object detection semantic segmentation

发现论文，激发创造

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

DualToken-ViT：具有双重令牌融合的位置感知高效视觉 Transformer

提出了一种轻量级和高效的视觉变换模型 DualToken-ViT，它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构，并使用位置感知的全局标记来丰富全局信息，并改进了图像的位置信息，通过在图像分类、物体检测和语义分割任务上进行广泛实验，展示了 DualToken-ViT 的有效性，其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率，而在只有 0.5G 和 1.0G 的 FLOPs 下，我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。

Sep, 2023

上下文视觉转换器用于稳健表征学习

提出了一种称为 Contextual Vision Transformers (ContextViT) 的方法，能够为表现出分组结构的图像生成稳健的特征表示。该方法使用额外的上下文令牌来编码组特定信息，并将其附加到输入图像令牌中，从而使模型能够解释特定于组的协变结构，同时保持跨组共享的核心视觉特征，以提高模型对图像的泛化能力。在监督微调和自监督学习任务中均表现良好。

May, 2023

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

具有并行局部和全局自注意力的轻量级视觉变换器

我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构，适合于计算资源有限的自动驾驶任务，通过减少参数数量和浮点运算来降低计算复杂性，并在性能适度下降的情况下将大小减小了 5 倍。

Jul, 2023

MaxViT：多轴视觉变压器

该研究通过引入多轴关注模型和卷积等新元素，提出了一种高效且可扩展的注意力模型，即 MaxViT。利用 MaxViT 作为骨干网络，在图像分类和物体检测等任务上都取得了领先的性能。同时，该模型还证明了其在图像生成方面的潜在优势。

Apr, 2022

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

MobileViT：轻量级、通用、面向移动的视觉 Transformer

本文提出了一种 MobileViT 轻量级通用视觉变换器，将 transformers 视为卷积，可用于移动设备，取得了比 CNN 和 ViT 更好的性能，特别是在对象检测任务上。

Oct, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021