超越固定关注窗口:动态窗口视觉变换器
本研究旨在提高计算机视觉中 Transformer 模型的精度和效率,通过在 Swin Transformer 模型中引入可变大小的窗口来实现本地窗口之间的交叉连接,以提高模型准确性和速度。
Jun, 2023
最近,视觉变换器在各种计算机视觉任务中表现出色,包括体素三维重建。然而,视觉变换器的窗口不是多尺度的,并且窗口之间没有连接,这限制了体素三维重建的准确性。因此,我们提出了一种移位窗口注意力体素三维重建网络。据我们所知,这是第一个将移位窗口注意力应用于体素三维重建的工作。在 ShapeNet 上的实验结果验证了我们的方法在单视图重建方面达到了 SOTA 准确性。
Dec, 2023
我们提出了一种新颖的分解自我注意力机制 (FaSA),它具有本地窗口的计算成本和远程依赖建模能力。利用 FaSA,我们提出了层次结构的分解视觉 Transformer (FaViT),它在输入图像空间分辨率方面具有线性计算复杂性,并在分类和下游任务中表现出卓越性能。与基准模型 Swin-T 相比,我们的 FaViT-B2 在分类精度上提高了 1%,在鲁棒性上提高了 7%,同时减少了 14%的模型参数。
Dec, 2023
本研究提出了一种基于动态窗口的变压器架构 DWFormer,通过自注意机制动态划分样本窗口,捕捉语音本地的精细的时间重要信息,并考虑窗口间的全局信息交互,实现了在情感识别方面的前沿突破。
Mar, 2023
本文通过引入窗口关注机制和金字塔池化等方法,成功将多尺度表征引入语义分割 ViT 中,进一步提高了性能和效率。研究结果表明,该模型具有更高的效率和更好的表现,并在 Cityscapes、ADE20K 和 COCO-Stuff 数据集上,取得了新的最优性能。
Jan, 2022
本文提出了一种新的视觉 Transformer,称为 Swin Transformer,它在计算机视觉领域中作为通用骨干具有很强的能力,包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的,并且模型和代码是公开的。
Mar, 2021
高效训练和推理高分辨率视觉 Transformer 模型的新策略是只保留 N 个随机窗口的高分辨率输入,通过学习窗口内的标记间的局部交互和窗口间的全局交互,模型能够直接处理高分辨率输入。这种策略在使用相对位置嵌入(如旋转嵌入)时表现出了显著的有效性,训练速度是全分辨率网络的 4 倍,而且与现有方法相比使用起来更加简单。将此策略应用于语义分割等密集视觉任务中,发现使用 2 个窗口的简单设置效果最佳,因此命名为 Win-Win 方法。将此策略进一步扩展到光流等双目任务中,达到了在 Spring 基准测试中超越最佳竞争对手一个数量级更快推理时间的最先进性能。
Oct, 2023
本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT),并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。
Mar, 2022
本文探讨了 Local Vision Transformer 的前身 ——Vision Transformer 和其一种局部注意力机制 —— 局部连接的形式,并从 network regularization 角度分析了其权重的稀疏性、共享性以及动态性。此外作者还针对这种局部连接进行的实验证明它的有效性,并提供了开源实现代码。
Jun, 2021
通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT 在各种视觉识别基准测试中取得了最先进的结果,包括 85.9% 的 ImageNet 准确率,54.5 和 47.0 的 MS-COCO 实例分割 mAP,以及 51.5 的 ADE20K 语义分割 mIoU。
Sep, 2023