AxWin Transformer: 一个具有轴向窗口的上下文感知视觉 Transformer 主干
CSWin Transformer 是一种有效的基于 Transformer 网络的视觉任务骨干,并通过使用 Cross-Shaped Window 自注意机制和局部增强位置编码等设计来提高建模性能,在常见的视觉任务中展现出了竞争力。
Jul, 2021
本文提出了一种新的视觉 Transformer,称为 Swin Transformer,它在计算机视觉领域中作为通用骨干具有很强的能力,包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的,并且模型和代码是公开的。
Mar, 2021
高效训练和推理高分辨率视觉 Transformer 模型的新策略是只保留 N 个随机窗口的高分辨率输入,通过学习窗口内的标记间的局部交互和窗口间的全局交互,模型能够直接处理高分辨率输入。这种策略在使用相对位置嵌入(如旋转嵌入)时表现出了显著的有效性,训练速度是全分辨率网络的 4 倍,而且与现有方法相比使用起来更加简单。将此策略应用于语义分割等密集视觉任务中,发现使用 2 个窗口的简单设置效果最佳,因此命名为 Win-Win 方法。将此策略进一步扩展到光流等双目任务中,达到了在 Spring 基准测试中超越最佳竞争对手一个数量级更快推理时间的最先进性能。
Oct, 2023
本研究旨在提高计算机视觉中 Transformer 模型的精度和效率,通过在 Swin Transformer 模型中引入可变大小的窗口来实现本地窗口之间的交叉连接,以提高模型准确性和速度。
Jun, 2023
该研究通过引入多轴关注模型和卷积等新元素,提出了一种高效且可扩展的注意力模型,即 MaxViT。利用 MaxViT 作为骨干网络,在图像分类和物体检测等任务上都取得了领先的性能。同时,该模型还证明了其在图像生成方面的潜在优势。
Apr, 2022
本文通过引入窗口关注机制和金字塔池化等方法,成功将多尺度表征引入语义分割 ViT 中,进一步提高了性能和效率。研究结果表明,该模型具有更高的效率和更好的表现,并在 Cityscapes、ADE20K 和 COCO-Stuff 数据集上,取得了新的最优性能。
Jan, 2022
Axial Transformers 是一种基于自注意力的自回归模型,可用于生成高维张量数据,具有全表达能力和易于实现的特点,并在标准生成建模基准测试中取得了最新的成果。
Dec, 2019
该研究提出了一种新颖的四边形注意力(QA)方法,将基于窗口的注意力扩展为一般的四边形公式,并将其整合到平面和分层视觉变换器中,提出了一种新的架构 QFormer,可用于分类、目标检测、语义分割和姿态估计等各种视觉任务,且具有较小的代码修改和可忽略的额外计算成本。
Mar, 2023
本篇论文提出了一种新的交叉聚合变压器(CAT)模型,并引入矩形窗口自注意力(Rwin-SA)与轴向移位操作来扩大注意力区域并跨多个窗口聚合特征,同时提出了本地补充模块来增强变压器的全局 - 局部耦合性能,实验结果表明,CAT 在多个图像修复应用中优于最新的若干方法。
Nov, 2022
本文介绍了一种名为动态窗口视觉 Transformer (DW-ViT) 的新型方法,其采用动态多尺度窗口对模型性能的影响进行了探索,并通过对三个数据集的详细性能评估,与相关的最新技术方法相比,DW-ViT 表现出最佳性能。
Mar, 2022