NomMer: 借助视觉 Transformer 提名协同上下文进行视觉识别

CVPRNov, 2021

NomMer: 借助视觉 Transformer 提名协同上下文进行视觉识别

NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition

Hao Liu, Xinghua Jiang, Xin Li, Zhimin Bao, Deqiang Jiang...

TL;DR本论文提出一种新的 ViT 结构，称为 NomMer，实现了动态提名协同全局 - 局部上下文的功能。NomMer 在 ImageNet 数据集上取得了 84.5％的 Top-1 分类精度，并在目标检测和语义分割等密集预测任务上表现出良好性能。

Abstract

Recently, vision transformers (ViT), with the self-attention (SA) as the de facto ingredients, have demonstrated great potential in the computer vision community. For the sake of trade-off between efficiency and

vision transformers self-attention global-local context nommer imagenet

发现论文，激发创造

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

全局上下文视觉 Transformer

本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Jun, 2022

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

ViT-CoMer: 具有卷积多尺度特征交互的视觉 Transformer 用于密集预测

ViT-CoMer 是一种纯粹、无需预训练并具有特征增强的 ViT 骨干网络，其通过引入卷积多尺度特征相互作用和 CNN-Transformer 双向融合交互模块，在处理密集预测任务时具有较优的性能。

Mar, 2024

上下文视觉转换器用于稳健表征学习

提出了一种称为 Contextual Vision Transformers (ContextViT) 的方法，能够为表现出分组结构的图像生成稳健的特征表示。该方法使用额外的上下文令牌来编码组特定信息，并将其附加到输入图像令牌中，从而使模型能够解释特定于组的协变结构，同时保持跨组共享的核心视觉特征，以提高模型对图像的泛化能力。在监督微调和自监督学习任务中均表现良好。

May, 2023

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

LF-ViT：针对高效图像识别减少 Vision Transformer 中的空间冗余

该研究提出了一种名为 LF-ViT 的定位和聚焦视觉变换器模型，通过在定位阶段处理降低分辨率图像并在发现困难预测时触发内置的全局类注意机制，确定和聚焦类别区域，然后在聚焦阶段使用原始图像中的该区域增强识别能力，该模型有效地缩小了计算要求并提高了性能。

Jan, 2024

双视觉变压器

本文提出了名为 Dual Vision Transformer (Dual-ViT) 的新型 Transformer 结构，在保持准确度的前提下，通过综合运用语义路径和像素路径，将全局语义压缩成更高效的先验信息，进而实现了减少计算复杂度的目的，并在实验中表现出比 SOTA Transformer 结构更高的准确度。

Jul, 2022

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

融合不同任务和领域的视觉 Transformer

该研究旨在将训练在不同任务或领域的多个 Vision Transformers (ViTs) 合并成一个统一的模型，以保持每个任务或领域的良好性能，通过提出一种简单而有效的门控网络和模型权重相似性度量方法实现整体 ViT 模型的合并和性能提升。

Dec, 2023