DAT++：具有可变形注意力的空间动态视觉变换器

Sep, 2023

DAT++：具有可变形注意力的空间动态视觉变换器

DAT++: Spatially Dynamic Vision Transformer with Deformable Attention

Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang

TL;DR通过引入一种新的可变形多头注意力模块，Deformable Attention Transformer（DAT）有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题，从而提高视觉识别任务的性能。实验证明，DAT 在各种视觉识别基准测试中取得了最先进的结果，包括 85.9% 的 ImageNet 准确率，54.5 和 47.0 的 MS-COCO 实例分割 mAP，以及 51.5 的 ADE20K 语义分割 mIoU。

Abstract

transformers have shown superior performance on various vision tasks. Their large receptive field endows Transformer models with higher representation power than their CNN counterparts. Nevertheless, simply enlar

transformers receptive field attention module deformable attention transformer visual recognition

发现论文，激发创造

具有可变形注意力的视觉 Transformer

本文介绍了一种新颖的变形注意力模块，提出了 Deformable Attention Transformer，通过变形注意力实现了基于图像分类和密集预测任务的骨干模型，并在广泛的基准测试中取得了显著的改进。

Jan, 2022

可变形音频变压器用于音频事件检测

基于变形注意力和金字塔 Transformer 骨干，提出了一种用于音频识别的新型变形音频 Transformer，名为 DATAR，解决了自注意力计算中的二次复杂度问题，适用于低资源环境和移动 / 边缘设备，并通过引入学习输入适配器对变形注意力图计算进行增强，实现了最先进的性能。

Dec, 2023

可变形视频转换器

本研究提出了 Deformable Video Transformer，利用动态预测小型视频数据块，根据运动信息决定模型在哪里观察视频，并优化变形注意机制，以获得更高的精度和更低的计算成本。

Mar, 2022

动态分组变换器：具有动态分组注意力的通用视觉变换器骨干网络

该论文提出了一种动态分组注意力 (DG-Attention) 和一个通用的 DGT 视觉转换器的背景，可以在多个常见的视觉任务中超越现有技术，并动态地将所有查询分成多个组，为每个组选择最相关的密钥 / 值。

Mar, 2022

DSVT：具有旋转集的动态稀疏体素变换器

本文介绍了动态稀疏体素变换器（DSVT），它是一个用于室外 3D 感知的单步幅基于体素的转换器骨干。为了有效处理稀疏点云，我们提出了动态稀疏窗口注意力，这将每个窗口中的一系列局部区域根据其稀疏性划分，并以完全并行的方式计算所有区域的特征。在本文中，我们的模型实现了具有广泛 3D 感知任务的最先进的性能，并且可以轻松通过 TensorRT 进行实时推理速度（27Hz）的部署。

Jan, 2023

注意力不足有序化！通过合作对抗修补欺骗可变形视觉 Transformer

在本研究中，我们首次针对变形 Transformer 模型进行了注意力劫持的对抗攻击，我们证明了这些攻击不会传递到变形 Transformer，这是由于其稀疏的注意力结构。我们的实验表明，仅对输入领域的 1% 施加了修复区域就能导致 0% 的 AP，并且我们还展示了这些攻击能够有效支持不同的攻击者场景，因为它们能够在攻击者的控制下重定向注意力。

Nov, 2023

超越固定关注窗口：动态窗口视觉变换器

本文介绍了一种名为动态窗口视觉 Transformer (DW-ViT) 的新型方法，其采用动态多尺度窗口对模型性能的影响进行了探索，并通过对三个数据集的详细性能评估，与相关的最新技术方法相比，DW-ViT 表现出最佳性能。

Mar, 2022

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

AdaViT: 自适应视觉 Transformer 用于高效图像识别

本文提出了 AdaViT，一个自适应的计算框架，旨在提高视觉变换器的推理效率，而只有 0.8％的准确率下降，并在不同的计算预算条件下实现了良好的效率 / 准确性平衡。

Nov, 2021

DaViT: 双注意力视觉 Transformer

本文提出 Dual Attention Vision Transformers (DaViT) 网络，该网络通过自我注意机制能够捕获全局信息，同时保持计算效率，并在图片分类任务上取得了最先进的表现。

Apr, 2022