邻域注意力变换器

Apr, 2022

Neighborhood Attention Transformer

Ali Hassani, Steven Walton, Jiachen Li, Shen Li, Humphrey Shi

TL;DR该研究提出了邻域注意力机制（Neighborhood Attention），改进了窗口自注意力机制（Window Self Attention），提高了视觉任务的性能，特别是图像分类方面。

Abstract

We present neighborhood attention (NA), the first efficient and scalable sliding-window attention mechanism for vision. NA is a pixel-wise

neighborhood attention sliding-window attention vision transformers image classification

发现论文，激发创造

扩张邻域注意力变换器

本文介绍了一种新型 Hierarchical Vision Transformer，Dilated Neighborhood Attention Transformer（DiNAT）及其基于 Dilated Neighborhood Attention（DiNA）的自注意力机制，使其具备全局关联建模和扩大感受野的能力，证明 DiNAT 对常规 Hierarchical Vision Transformer 具有显著的优势，从而实现了在一些特定领域中更好的 Panoptic 分割表现。

Sep, 2022

更快的邻域注意力机制：在线程块级别降低自注意力的 O (n^2) 复杂度

邻域自注意力通过限制每个标记的注意力范围为其最近的邻居来降低自注意力的成本。这种限制通过窗口大小和膨胀因子参数化，绘制了在线性投影和自注意力之间的一系列可能的注意力模式。我们将邻域注意力表示为分批 GEMM 问题，实现了 1-D 和 2-D 邻域注意力，并且与现有的朴素内核相比，平均提供了 895% 和 272％的全精度延迟改进，我们观察到我们的融合内核成功地规避了未融合实现中不可避免的低效率。

Mar, 2024

用于高效本地注意力的学习查询

本文提出了一种名为 query and attend（QnA）的新型 shift-invariant local attention 层，将其并入分层视觉 transformer 模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021

Slide-Transformer: 具有局部自注意力的分层视觉变压器

本文提出一种新颖的本地自注意力模块 Slide Attention，使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习，适用于各种高级视觉 Transformer 模型，并在多项基准测试中实现了持续的性能改进。

Apr, 2023

基于规范化和几何意识的自注意力网络在图像字幕生成中的应用

本文提出改进的归一化自注意力网络，并针对 Transformer 处理对象几何结构的局限性，引入了一种几何感知自注意力机制，将两个模型结合应用于图像字幕任务并在 MS-COCO 数据集上取得了优异实验结果，同时在视频字幕，机器翻译和视觉问答等任务上也展现了较强的通用性。

Mar, 2020

StyleNAT: 为每个注意力头提供新的视角

使用 Neighborhood Attention (NA) 技术进行图像生成，提高效率和灵活性，实现对数据的高度灵活适应。StyleNAT 在 FFHQ-256 和 FFHQ-1024 数据集上实现了新的最优成绩。

Nov, 2022

非自回归翻译的上下文感知交叉注意力

本研究针对非自回归翻译中 decoder 缺乏目标依赖建模的问题，提出一种基于跨注意力增强源上下文信息的方法，实验表明该方法能够改善翻译质量并更好地利用源语句的局部和全局信息。

Nov, 2020

窗口化注意力在图像压缩中的应用

本文提出了一种基于 Transformer 和注意力机制的对称变压器框架，其中融合了局部感知机制和全局相关特征学习，在图像压缩方面表现出更好的效果。

Mar, 2022

ScalableViT: 重思视觉 Transformer 的面向上下文的泛化

本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT)，并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。

Mar, 2022

基于方向窗口注意力的医学图像分割

DwinFormer 是一个层级编码器解码器架构，具有方向窗口（Dwin）注意力和全局自注意力（GSA）用于特征编码，通过在水平、垂直和深度方向分别执行注意力，在输入特征图的这些方向体积中有效地捕捉局部和全局信息，实验证明它在医学图像分割方面优于当前最先进的方法。

Jun, 2024