学习视觉 Transformer 的相关结构

CVPRApr, 2024

Learning Correlation Structures for Vision Transformers

Manjin Kim, Paul Hongsuck Seo, Cordelia Schmid, Minsu Cho

TL;DR我们引入了一种新的注意力机制，称为结构自注意力（StructSA），它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块，我们开发了结构视觉转换器（StructViT），并在图像和视频分类任务上评估其有效性，在 ImageNet-1K，Kinetics-400，Something-Something V1＆V2，Diving-48 和 FineGym 数据集上取得了最先进的结果。

Abstract

We introduce a new attention mechanism, dubbed structural self-attention (StructSA), that leverages rich correlation patterns naturally emerging in key-query interactions of attention. StructSA generates attentio

structural self-attention attention mechanism structural patterns images video classification tasks

发现论文，激发创造

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

ScalableViT: 重思视觉 Transformer 的面向上下文的泛化

本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT)，并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。

Mar, 2022

SSAN: 可分离自注意力网络用于视频表示学习

该论文提出了一种分离的自注意力模块 (SSA)，通过分别建模空间和时间相关性，有效地将空间上下文信息用于时间建模，将该模块添加到 2D CNN 中形成 SSAN，用于视频表示学习，在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法，在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。

May, 2021

关系自注意力：视频理解中注意力缺少的部分

本文提出了一种基于动态生成关系卷积核和聚合关系背景的关系特征变换 —— 关系自注意力 (RSA)，用于视频理解。通过实验和消融研究，证明 RSA 网络在视频动作识别等领域明显优于传统卷积和自注意力网络。

Nov, 2021

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024

理解视觉 Transformer 中的鲁棒性

本研究阐述 Vision Transformers（ViTs）在自我关注机制的作用下，实现了对多种数据干扰的强大稳健性，并且提出了一族全注意网络（FANs），以加强注意通道处理设计的能力。我们的模型在 ImageNet-1k 和 ImageNet-C 上达到了 87.1％的最新准确度和 35.8％的 mCE，并且在两个下游任务中实现了最新的准确性和稳健性：语义分割和物体检测。

Apr, 2022

基于相关掩蔽建模的紧凑型 Transformer 跟踪器

本文证明了自注意力结构足以实现信息聚合，无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer（ViT）架构作为主跟踪器，并将模板和搜索图像进行特征嵌入，进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成，可以以每秒 40 帧的速度运行，并在多个测试数据集上实现了最先进的跟踪效果。

Jan, 2023

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

深度注意力结构化表示学习用于视觉识别

本文介绍了一个关注机制的结构化表示学习框架，可以预测图像类别标签和注意力映射，并在没有其他监督的情况下以端到端的方式进行学习，改进了性能，并在标准场景识别和细粒度分类基准测试中取得了最新成果。

May, 2018