具有可变形注意力的视觉 Transformer
通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT 在各种视觉识别基准测试中取得了最先进的结果,包括 85.9% 的 ImageNet 准确率,54.5 和 47.0 的 MS-COCO 实例分割 mAP,以及 51.5 的 ADE20K 语义分割 mIoU。
Sep, 2023
在本研究中,我们首次针对变形 Transformer 模型进行了注意力劫持的对抗攻击,我们证明了这些攻击不会传递到变形 Transformer,这是由于其稀疏的注意力结构。我们的实验表明,仅对输入领域的 1% 施加了修复区域就能导致 0% 的 AP,并且我们还展示了这些攻击能够有效支持不同的攻击者场景,因为它们能够在攻击者的控制下重定向注意力。
Nov, 2023
本研究提出了 Deformable Video Transformer,利用动态预测小型视频数据块,根据运动信息决定模型在哪里观察视频,并优化变形注意机制,以获得更高的精度和更低的计算成本。
Mar, 2022
本文提出一种新颖的本地自注意力模块 Slide Attention,使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习,适用于各种高级视觉 Transformer 模型,并在多项基准测试中实现了持续的性能改进。
Apr, 2023
本文介绍了动态稀疏体素变换器(DSVT),它是一个用于室外 3D 感知的单步幅基于体素的转换器骨干。为了有效处理稀疏点云,我们提出了动态稀疏窗口注意力,这将每个窗口中的一系列局部区域根据其稀疏性划分,并以完全并行的方式计算所有区域的特征。在本文中,我们的模型实现了具有广泛 3D 感知任务的最先进的性能,并且可以轻松通过 TensorRT 进行实时推理速度(27Hz)的部署。
Jan, 2023
基于变形注意力和金字塔 Transformer 骨干,提出了一种用于音频识别的新型变形音频 Transformer,名为 DATAR,解决了自注意力计算中的二次复杂度问题,适用于低资源环境和移动 / 边缘设备,并通过引入学习输入适配器对变形注意力图计算进行增强,实现了最先进的性能。
Dec, 2023
本研究提出一种 Pale-Shaped self-Attention(PS-Attention)以及基于此的层次结构的通用视觉 Transformer 骨干,称为 Pale Transformer,通过使用 paleshaped(类似淡色的形状)来实现自我关注,缩减了计算和存储成本,同时在与之前的局部自我关注机制具有相似的计算复杂度下,捕捉了更丰富的上下文信息,并且在 ImageNet-1K,ADE20K 语义分割和 COCO 物体检测 & 实例分割的下游任务中均优于先前的 Transformer 骨干。
Dec, 2021
本研究阐述 Vision Transformers(ViTs)在自我关注机制的作用下,实现了对多种数据干扰的强大稳健性,并且提出了一族全注意网络(FANs),以加强注意通道处理设计的能力。我们的模型在 ImageNet-1k 和 ImageNet-C 上达到了 87.1%的最新准确度和 35.8%的 mCE,并且在两个下游任务中实现了最新的准确性和稳健性:语义分割和物体检测。
Apr, 2022
通过引入稀疏注意力机制和双头预测器,成功地解决了基于 Transformer 模型的视觉跟踪任务中自注意力机制关注背景信息而影响性能的问题,并在 LaSOT、GOT-10k、TrackingNet 和 UAV123 等数据集中表现出显著的跟踪性能。相比 TransT,我们的方法将训练时间缩短了 75%。
May, 2022
本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。
Jun, 2024