LocalViT: 将局部性带入视觉 Transformer

Apr, 2021

LocalViT: 将局部性带入视觉 Transformer

LocalViT: Bringing Locality to Vision Transformers

Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Luc Van Gool

TL;DR通过引入深度卷积来将局部性机制引入视觉变换器中，结果显示，在 ImageNet2012 分类任务上，增强了局部性的转换器在不增加参数和计算努力的情况下，优于基线模型 DeiT-T 和 PVT-T 达 2.6% 和 3.1%。

Abstract

We study how to introduce locality mechanisms into vision transformers. The transformer network originates from machine translation and is particularly good at modelling long-range dependencies within a long sequ

vision transformers locality mechanisms depth-wise convolution imagenet2012 classification performance gain

发现论文，激发创造

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

为类增量学习在视觉 Transformer 中保留局部性

通过实验结果证明，采用 Locality-Preserved Attention (LPA) 可以防止 Vision Transformers 学习新的类别时出现 Locality Degradation 现象，从而保留更多的低层局部信息，提高模型拓展性能。

Apr, 2023

在小数据集上通过本地归纳偏置引入提高视觉 Transformer 的性能

本文提出基于自注意力块的局部信息增强模块 LIFE，通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中，在小尺寸图像分类数据集上改进了 ViTs 的性能，并将其推广到目标检测和语义分割等下游任务，在此基础上，引入了一种新的可视化方法 —— 密集注意力 Roll-Out，特别适用于密集预测任务。

May, 2023

LF-ViT：针对高效图像识别减少 Vision Transformer 中的空间冗余

该研究提出了一种名为 LF-ViT 的定位和聚焦视觉变换器模型，通过在定位阶段处理降低分辨率图像并在发现困难预测时触发内置的全局类注意机制，确定和聚焦类别区域，然后在聚焦阶段使用原始图像中的该区域增强识别能力，该模型有效地缩小了计算要求并提高了性能。

Jan, 2024

局部注意力与动态深度可分离卷积之间的联系

本文探讨了 Local Vision Transformer 的前身 ——Vision Transformer 和其一种局部注意力机制 —— 局部连接的形式，并从 network regularization 角度分析了其权重的稀疏性、共享性以及动态性。此外作者还针对这种局部连接进行的实验证明它的有效性，并提供了开源实现代码。

Jun, 2021

全局上下文视觉 Transformer

本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Jun, 2022

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

局部到全局的视觉 Transformer 自注意力

本研究提出了多通路结构的 Transformer 模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

具有并行局部和全局自注意力的轻量级视觉变换器

我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构，适合于计算资源有限的自动驾驶任务，通过减少参数数量和浮点运算来降低计算复杂性，并在性能适度下降的情况下将大小减小了 5 倍。

Jul, 2023

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

本文提出了一种利用先验卷积 IB（intrinsic bias）的 Vision transformer 架构（ViTAE）来解决长程依赖建模中存在的局限性，并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。

Feb, 2022