ToSA：用于高效视觉 Transformer 的令牌选择性注意力

CVPRJun, 2024

ToSA：用于高效视觉 Transformer 的令牌选择性注意力

ToSA: Token Selective Attention for Efficient Vision Transformers

Manish Kumar Singh, Rajeev Yasarla, Hong Cai, Mingu Lee, Fatih Porikli

TL;DR本研究提出了一种新颖的令牌选择性注意力方法，即 ToSA，它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA，我们能够显著减少计算成本，同时在 ImageNet 分类基准上保持准确性，并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。

Abstract

In this paper, we propose a novel token selective attention approach, tosa, which can identify tokens that need to be attended as well as those that can skip a →

token selective attention tosa transformer layer computation costs dense prediction

发现论文，激发创造

利用多尺度令牌聚合的深层自注意力机制

本文提出一种名为 SSA 的新型自注意力策略，能够使 Vision Transformer 模型在单个自注意力层上实现对多种尺度特征的建模，并得到了广泛验证和超越同类模型的结果。

Nov, 2021

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，其将自注意力操作限制在空间上邻近的一组 Token 上，并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题，可以在保证准确率下显著减少计算量，达到更优的精度－计算复杂度平衡点，进一步结合 Token 稀疏机制，该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Mar, 2023

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

探索基于注意力图复用的高效 Transformer 神经网络

本文研究了基于 Transformer 的自注意力（SA）提取序列特征方案，在注意力地图重用方面做了全面的研究，并证明了其在加速推理方面具有显著的优势。实验结果表明，注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。

Jan, 2023

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024

无需训练的 Transformer 架构搜索

本文提出了一种训练无需的 Transformer 架构搜索方法，使用 DSS 指标评估 ViT 架构的突触多样性和突触显著性，从而大大提高了在 ViT 搜索空间的效率，并取得了与手动设计和自动设计的 ViT 架构一样好的性能表现。

Mar, 2022

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

SeTformer 用于视觉和语言的所需之物

SeTformer 是一种新型的 transformer 模型，将 DPSA 纯粹替换为 Self-optimal Transport（SeT），以实现更好的性能和计算效率，它在视觉和语言任务中取得了最先进的结果。

Jan, 2024

TiC: 探索卷积中的视觉变换器

通过结合 Self-Attention 与广义卷积（包括标准卷积、空洞卷积和深度卷积），Multi-Head Self-Attention Convolution (MSA-Conv) 扩展了 Transformer 模型，使其能够处理不同尺寸的图像，降低了计算成本，并且通过引入两种增强策略实现了长距离连接和扩大的感受野，而在图像分类任务中，Vision Transformer in Convolution (TiC) 利用了 MSA-Conv，在 ImageNet-1K 数据集上与目前最先进的方法具有可比性。

Oct, 2023