双视觉变压器

Jul, 2022

Dual Vision Transformer

Ting Yao, Yehao Li, Yingwei Pan, Yu Wang, Xiao-Ping Zhang...

TL;DR本文提出了名为Dual Vision Transformer (Dual-ViT)的新型Transformer结构，在保持准确度的前提下，通过综合运用语义路径和像素路径，将全局语义压缩成更高效的先验信息，进而实现了减少计算复杂度的目的，并在实验中表现出比SOTA Transformer结构更高的准确度。

Abstract

Prior works have proposed several strategies to reduce the computational cost of self-attention mechanism. Many of these works consider decomposing the self-attention procedure into regional and local feature extraction procedures that each incurs a much smaller computational complexit

发现论文，激发创造

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉transformer（ViT）变体。

Jun, 2021

局部到全局的视觉Transformer自注意力

本研究提出了多通路结构的Transformer模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

利用多尺度令牌聚合的深层自注意力机制

本文提出一种名为SSA的新型自注意力策略，能够使Vision Transformer模型在单个自注意力层上实现对多种尺度特征的建模，并得到了广泛验证和超越同类模型的结果。

Nov, 2021

DaViT: 双注意力视觉Transformer

本文提出Dual Attention Vision Transformers (DaViT)网络，该网络通过自我注意机制能够捕获全局信息，同时保持计算效率，并在图片分类任务上取得了最先进的表现。

Apr, 2022

具有分区注意力的双路径Transformer

本文介绍了一种新颖的双重注意机制，包括由卷积神经网络生成的局部注意和由Vision Transformer生成的长程注意，提出了一种新的多头分区关注机制（MHPA）来解决计算复杂性和内存占用的问题，并基于此提出了一个分层视觉骨干网络DualFormer，在多个计算机视觉任务中都取得了比较好的表现。

May, 2023

轻量化双向交互视觉变换器

本文提出了一种全自适应自注意力机制用于视觉Transformer，以在上下文感知方面建模局部和全局信息以及其二者之间的双向交互，并介绍了一种细粒度下采样策略以增强全局感知能力，最终研发了一系列轻量级视觉骨干，Fully Adaptive Transformer (FAT) 系列，并在多个视觉任务上进行了广泛的实验，取得了优秀的性能。

Jun, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

DualToken-ViT：具有双重令牌融合的位置感知高效视觉Transformer

提出了一种轻量级和高效的视觉变换模型DualToken-ViT，它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构，并使用位置感知的全局标记来丰富全局信息，并改进了图像的位置信息，通过在图像分类、物体检测和语义分割任务上进行广泛实验，展示了DualToken-ViT的有效性，其在ImageNet-1K数据集上取得了75.4%和79.4%的准确率，而在只有0.5G和1.0G的FLOPs下，我们的1.0G FLOPs的模型的性能超过了使用全局标记的LightViT-T模型0.7%。

Sep, 2023

视觉Transformer的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

视觉Transformer中的区域与稀疏注意力融合

本研究提出了一种新的混合视觉transformer模型(ACC-ViT)，运用区域关注和稀疏关注相结合的方式，动态地集成了局部和全局信息，同时保留了分层结构，并在常见的视觉任务中表现出色。

Jun, 2024