邻域注意力变换器
本文介绍了一种新型 Hierarchical Vision Transformer,Dilated Neighborhood Attention Transformer(DiNAT)及其基于 Dilated Neighborhood Attention(DiNA)的自注意力机制,使其具备全局关联建模和扩大感受野的能力,证明 DiNAT 对常规 Hierarchical Vision Transformer 具有显著的优势,从而实现了在一些特定领域中更好的 Panoptic 分割表现。
Sep, 2022
邻域自注意力通过限制每个标记的注意力范围为其最近的邻居来降低自注意力的成本。这种限制通过窗口大小和膨胀因子参数化,绘制了在线性投影和自注意力之间的一系列可能的注意力模式。我们将邻域注意力表示为分批 GEMM 问题,实现了 1-D 和 2-D 邻域注意力,并且与现有的朴素内核相比,平均提供了 895% 和 272%的全精度延迟改进,我们观察到我们的融合内核成功地规避了未融合实现中不可避免的低效率。
Mar, 2024
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
本文提出一种新颖的本地自注意力模块 Slide Attention,使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习,适用于各种高级视觉 Transformer 模型,并在多项基准测试中实现了持续的性能改进。
Apr, 2023
本文提出改进的归一化自注意力网络,并针对 Transformer 处理对象几何结构的局限性,引入了一种几何感知自注意力机制,将两个模型结合应用于图像字幕任务并在 MS-COCO 数据集上取得了优异实验结果,同时在视频字幕,机器翻译和视觉问答等任务上也展现了较强的通用性。
Mar, 2020
使用 Neighborhood Attention (NA) 技术进行图像生成,提高效率和灵活性,实现对数据的高度灵活适应。StyleNAT 在 FFHQ-256 和 FFHQ-1024 数据集上实现了新的最优成绩。
Nov, 2022
本研究针对非自回归翻译中 decoder 缺乏目标依赖建模的问题,提出一种基于跨注意力增强源上下文信息的方法,实验表明该方法能够改善翻译质量并更好地利用源语句的局部和全局信息。
Nov, 2020
本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT),并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。
Mar, 2022
DwinFormer 是一个层级编码器解码器架构,具有方向窗口(Dwin)注意力和全局自注意力(GSA)用于特征编码,通过在水平、垂直和深度方向分别执行注意力,在输入特征图的这些方向体积中有效地捕捉局部和全局信息,实验证明它在医学图像分割方面优于当前最先进的方法。
Jun, 2024