基于异质注意力模式的视觉 Transformer 加速

Oct, 2023

基于异质注意力模式的视觉 Transformer 加速

Accelerating Vision Transformers Based on Heterogeneous Attention Patterns

Deli Yu, Teng Xi, Jianwei Li, Baopu Li, Gang Zhang...

TL;DR基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Abstract

Recently, vision transformers (ViTs) have attracted a lot of attention in the field of computer vision. Generally, the powerful representative capacity of ViTs mainly benefits from the self-attention mechanism, w

vision transformers self-attention mechanism compression pipeline dynamic-guided static self-attention global aggregation pyramid

发现论文，激发创造

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

ScalableViT: 重思视觉 Transformer 的面向上下文的泛化

本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT)，并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。

Mar, 2022

利用多尺度令牌聚合的深层自注意力机制

本文提出一种名为 SSA 的新型自注意力策略，能够使 Vision Transformer 模型在单个自注意力层上实现对多种尺度特征的建模，并得到了广泛验证和超越同类模型的结果。

Nov, 2021

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

基于群组混合注意力的视觉 Transformer 的进展

基于 Group-Mix Attention 的 GroupMixFormer 模型在图像分类、物体检测和语义分割方面表现出色，参数较现有模型更少，例如 GroupMixFormer-L 在 ImageNet-1K 上取得 86.2% 的 Top-1 准确率，GroupMixFormer-B 在 ADE20K 上取得 51.2% 的 mIoU。

Nov, 2023

用均匀注意力为视觉 Transformer 提供支持

通过研究 Vision Transformers 中的 self-attention 机制密度，得出了密集交互对模型的重要性，并提出了一种新的方法 ——Context Broadcasting (CB)，有效地提高了模型的容量和泛化能力。

Oct, 2022

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024

ConViT：利用软卷积归纳偏置提升视觉 Transformer 性能

本文提出了一种形式的位置自注意力机制：门控位置自注意力，该机制能够同时具备卷积神经网络的空域学习和自注意力层的位置不变性。作者使用这种机制构建了名为 ConViT 的混合卷积 - 自注意力神经网络，通过在 ImageNet 数据集上的实验表明，该网络在图像分类任务上拥有优异的性能和更高的样本效率，并提高了对定位特征的注意力。

Mar, 2021

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024