Pale Transformer：一种具有 Pale 形状注意力的通用视觉 Transformer 骨干

Dec, 2021

Pale Transformer：一种具有 Pale 形状注意力的通用视觉 Transformer 骨干

Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention

Sitong Wu, Tianyi Wu, Haoru Tan, Guodong Guo

TL;DR本研究提出一种 Pale-Shaped self-Attention（PS-Attention）以及基于此的层次结构的通用视觉 Transformer 骨干，称为 Pale Transformer，通过使用 paleshaped（类似淡色的形状）来实现自我关注，缩减了计算和存储成本，同时在与之前的局部自我关注机制具有相似的计算复杂度下，捕捉了更丰富的上下文信息，并且在 ImageNet-1K，ADE20K 语义分割和 COCO 物体检测 & 实例分割的下游任务中均优于先前的 Transformer 骨干。

Abstract

Recently, transformers have shown promising performance in various vision tasks. To reduce the quadratic computation complexity caused by the global self-attention, various methods constrain the range of attentio

transformers self-attention context modeling vision transformer pale transformer

发现论文，激发创造

具有可变形注意力的视觉 Transformer

本文介绍了一种新颖的变形注意力模块，提出了 Deformable Attention Transformer，通过变形注意力实现了基于图像分类和密集预测任务的骨干模型，并在广泛的基准测试中取得了显著的改进。

Jan, 2022

PSLT: 一种轻量级视觉变换器，具有阶梯自注意力和渐进移位

本文介绍了使用阶梯自注意力块和渐进式移位机制开发轻量级转换器骨干 (PSTL)，具有较少的计算资源需求，用于各种视觉任务包括图像分类等，相对于现有的模型，PSTL 具有更少的参数和 FLOPs，但在 ImageNet-1k 数据集上却达到了 79.9％的准确率

Apr, 2023

局部到全局的视觉 Transformer 自注意力

本研究提出了多通路结构的 Transformer 模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

具有并行局部和全局自注意力的轻量级视觉变换器

我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构，适合于计算资源有限的自动驾驶任务，通过减少参数数量和浮点运算来降低计算复杂性，并在性能适度下降的情况下将大小减小了 5 倍。

Jul, 2023

轻量化双向交互视觉变换器

本文提出了一种全自适应自注意力机制用于视觉 Transformer，以在上下文感知方面建模局部和全局信息以及其二者之间的双向交互，并介绍了一种细粒度下采样策略以增强全局感知能力，最终研发了一系列轻量级视觉骨干，Fully Adaptive Transformer (FAT) 系列，并在多个视觉任务上进行了广泛的实验，取得了优秀的性能。

Jun, 2023

少即是多：在视觉 Transformer 网络中降低注意力

我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer（LIT）来提高特征提取效率，并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块，以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。

May, 2021

CSWin Transformer: 带有十字形窗口的通用视觉 Transformer 骨干

CSWin Transformer 是一种有效的基于 Transformer 网络的视觉任务骨干，并通过使用 Cross-Shaped Window 自注意机制和局部增强位置编码等设计来提高建模性能，在常见的视觉任务中展现出了竞争力。

Jul, 2021

PS-Transformer: 使用自注意机制学习稀疏光度立体网络

本文提出了一种深度稀疏校准光度立体网络，命名为 PS-Transformer，它利用可学习的自我关注机制来捕捉复杂的图像之间的相互作用，通过新的合成数据集 CyclesPS + 进行训练，试验结果表明，该算法在表面法线的预测准确性方面明显优于其他现有算法。

Nov, 2022

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

P2T: 金字塔池化变换器用于场景理解

该研究旨在将金字塔池化方法应用于多头自注意力中，从而建立通用的金字塔池化变压器（P2T）骨干网络，在各种视觉任务中实现了较之前的卷积神经网络和变压器网络更优异的表现，同时降低了序列长度和捕捉了强大的上下文特征。

Jun, 2021