视觉Transformer的每个阶段只需要更少的注意力

Jun, 2024

视觉Transformer的每个阶段只需要更少的注意力

You Only Need Less Attention at Each Stage in Vision Transformers

Shuoxi Zhang, Hanpeng Liu, Stephen Lin, Kun He

TL;DRVision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Abstract

The advent of vision transformers (ViTs) marks a substantial paradigm shift in the realm of computer vision. ViTs capture the global information of images through self-attention modules, which perform dot product

发现论文，激发创造

DeepViT: 朝更深层次的Vision Transformer进发

本文发现Vision transformers模型存在attention collapse issue现象，即transformer模型越深层次的注意力权重变得越相似，严重影响模型性能，提出了一种名为Re-attention的有效方法来解决该问题，使得32层的Vision transformers模型在ImageNet数据集的Top-1分类准确率上提高了1.6%。

Mar, 2021

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉transformer（ViT）变体。

Jun, 2021

视觉Transformer能否执行卷积？

本文介绍视觉Transformer(ViT)在使用自注意力机制的基础上，探究其能否表达卷积操作，并证明使用输入图像块的单个ViT层可以构建任何卷积操作，其中多头注意机制和相对位置编码起着关键作用。作者还提供了Vision Transformer表达CNN所需头数的下限，该证明的构建可以帮助将卷积偏差注入Transformer，并在低数据环境下显著提高ViT的性能。

Nov, 2021

当位移操作遇上视觉Transformer：一种极其简单的替代注意力机制的方法

本研究研究了注意力机制在视觉Transformer中的作用，将其简化为一个名为ShiftViT的零参数操作，发现它在分类、检测和分割等任务中表现良好，并且性能与强基线Swin Transformer相当甚至更好。

Jan, 2022

视觉Transformer的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

基于傅里叶域分析的深度视觉变换器中的防过度平滑技术：从理论到实践

本研究针对Vision Transformer深度增加时性能达到饱和的问题提出了两种有效而无需超参数的技术AttnScale和FeatScale，能够有效克服与注意力折叠和补丁均匀性等相关的ViT训练伪像。

Mar, 2022

X-ViT: 高性能线性视觉Transformer无softmax

本文提出了一种名为X-ViT的视觉变换模型，其采用线性复杂度的自注意力机制代替了传统的二次复杂度算法，在图像分类和密集预测任务中表现优异。

May, 2022

Castling-ViT: 基于线性-角度注意力切换的视觉Transformer推理压缩自注意力

本文提出了一种名为Castling-ViT的框架，该框架结合使用线性角度注意力和掩码Softmax的二次注意力模块，旨在同时学习全局和局部上下文，但在ViT的推理过程中仅使用线性角度的注意力模块，实现了降低计算量、提高精度的优化效果。

Nov, 2022

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

视觉Transformer中的区域与稀疏注意力融合

本研究提出了一种新的混合视觉transformer模型(ACC-ViT)，运用区域关注和稀疏关注相结合的方式，动态地集成了局部和全局信息，同时保留了分层结构，并在常见的视觉任务中表现出色。

Jun, 2024