用均匀注意力为视觉 Transformer 提供支持

Oct, 2022

用均匀注意力为视觉 Transformer 提供支持

Scratching Visual Transformer's Back with Uniform Attention

Nam Hyeon-Woo, Kim Yu-Ji, Byeongho Heo, Dongyoon Han, Seong Joon Oh...

TL;DR通过研究 Vision Transformers 中的 self-attention 机制密度，得出了密集交互对模型的重要性，并提出了一种新的方法 ——Context Broadcasting (CB)，有效地提高了模型的容量和泛化能力。

Abstract

The favorable performance of vision transformers (ViTs) is often attributed to the multi-head self-attention (MSA). The MSA enables global interactions at each layer of a ViT model, which is a contrasting feature

vision transformers self-attention dense interaction global interaction context broadcasting

发现论文，激发创造

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，其将自注意力操作限制在空间上邻近的一组 Token 上，并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题，可以在保证准确率下显著减少计算量，达到更优的精度－计算复杂度平衡点，进一步结合 Token 稀疏机制，该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Mar, 2023

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

视觉 Transformer 中的区域与稀疏注意力融合

本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT)，运用区域关注和稀疏关注相结合的方式，动态地集成了局部和全局信息，同时保留了分层结构，并在常见的视觉任务中表现出色。

Jun, 2024

DeepViT: 朝更深层次的 Vision Transformer 进发

本文发现 Vision transformers 模型存在 attention collapse issue 现象，即 transformer 模型越深层次的注意力权重变得越相似，严重影响模型性能，提出了一种名为 Re-attention 的有效方法来解决该问题，使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。

Mar, 2021

TiC: 探索卷积中的视觉变换器

通过结合 Self-Attention 与广义卷积（包括标准卷积、空洞卷积和深度卷积），Multi-Head Self-Attention Convolution (MSA-Conv) 扩展了 Transformer 模型，使其能够处理不同尺寸的图像，降低了计算成本，并且通过引入两种增强策略实现了长距离连接和扩大的感受野，而在图像分类任务中，Vision Transformer in Convolution (TiC) 利用了 MSA-Conv，在 ImageNet-1K 数据集上与目前最先进的方法具有可比性。

Oct, 2023

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

视觉 Transformer 如何工作？

本文揭示了多头自注意力机制（MSAs）成功的原因及其背后的模型特性，提出了替代 CNN 模型的 AlterNet 模型，并证明了其在小规模及大规模数据集上的优越性。

Feb, 2022

Castling-ViT: 基于线性 - 角度注意力切换的视觉 Transformer 推理压缩自注意力

本文提出了一种名为 Castling-ViT 的框架，该框架结合使用线性角度注意力和掩码 Softmax 的二次注意力模块，旨在同时学习全局和局部上下文，但在 ViT 的推理过程中仅使用线性角度的注意力模块，实现了降低计算量、提高精度的优化效果。

Nov, 2022