ScalableViT: 重思视觉 Transformer 的面向上下文的泛化

ECCVMar, 2022

ScalableViT: 重思视觉 Transformer 的面向上下文的泛化

ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

Rui Yang, Hailong Ma, Jie Wu, Yansong Tang, Xuefeng Xiao...

TL;DR本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT)，并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。

Abstract

The vanilla self-attention mechanism inherently relies on pre-defined and steadfast computational dimensions. Such inflexibility restricts it from possessing context-oriented generalization that can bring more contextual cues and global representations. To mitigate this issue, we propo

self-attention scalable self-attention interactive window-based self-attention scalable vision transformer imagenet

发现论文，激发创造

利用多尺度令牌聚合的深层自注意力机制

本文提出一种名为 SSA 的新型自注意力策略，能够使 Vision Transformer 模型在单个自注意力层上实现对多种尺度特征的建模，并得到了广泛验证和超越同类模型的结果。

Nov, 2021

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024

全局上下文视觉 Transformer

本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Jun, 2022

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

Castling-ViT: 基于线性 - 角度注意力切换的视觉 Transformer 推理压缩自注意力

本文提出了一种名为 Castling-ViT 的框架，该框架结合使用线性角度注意力和掩码 Softmax 的二次注意力模块，旨在同时学习全局和局部上下文，但在 ViT 的推理过程中仅使用线性角度的注意力模块，实现了降低计算量、提高精度的优化效果。

Nov, 2022

Wave-ViT：融合小波和 Transformer 的视觉表示学习

本研究通过构建 Wavelet Vision Transformer 来处理多尺度视觉问题，使用小波变换实现可逆下采样，同时结合局部上下文信息提高自注意力计算结果，结果表明其在图像识别等多种任务上表现优异。

Jul, 2022

可扩展的视觉 Transformer

本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Jun, 2021

学习视觉 Transformer 的相关结构

我们引入了一种新的注意力机制，称为结构自注意力（StructSA），它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块，我们开发了结构视觉转换器（StructViT），并在图像和视频分类任务上评估其有效性，在 ImageNet-1K，Kinetics-400，Something-Something V1＆V2，Diving-48 和 FineGym 数据集上取得了最先进的结果。

Apr, 2024