RSIR Transformer:使用随机采样窗口和重要区域窗口的分层视觉 Transformer
高效训练和推理高分辨率视觉 Transformer 模型的新策略是只保留 N 个随机窗口的高分辨率输入,通过学习窗口内的标记间的局部交互和窗口间的全局交互,模型能够直接处理高分辨率输入。这种策略在使用相对位置嵌入(如旋转嵌入)时表现出了显著的有效性,训练速度是全分辨率网络的 4 倍,而且与现有方法相比使用起来更加简单。将此策略应用于语义分割等密集视觉任务中,发现使用 2 个窗口的简单设置效果最佳,因此命名为 Win-Win 方法。将此策略进一步扩展到光流等双目任务中,达到了在 Spring 基准测试中超越最佳竞争对手一个数量级更快推理时间的最先进性能。
Oct, 2023
本文提出了一种新的视觉 Transformer,称为 Swin Transformer,它在计算机视觉领域中作为通用骨干具有很强的能力,包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的,并且模型和代码是公开的。
Mar, 2021
基于 Big Bird 的 Transformers 模型,提出了一种用于 Vision Transformers 的稀疏注意机制,该模型在常见的视觉任务中展现了竞争力。
Nov, 2023
用于遥感图像超分辨率 (RSISR) 的新型 Transformer 网络 SPIFFNet,通过引入跨空间像素整合和跨阶段特征融合注意力机制,有效提高了全局认知和特征表达能力,从而在定量度量和视觉质量上优于现有方法。
Jul, 2023
为了更好的利用 Transformer 的潜力以进行图片重构,在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外,还引入了重叠交叉注意力模块并采用相同任务的预训练策略,拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。
May, 2022
本研究提出了多通路结构的 Transformer 模型,实现局部到全局的多粒度特征推理,相较于现有的分层设计模型,在增加了极小的计算量的同时,在图像分类和语义分割任务上取得了显著的提高。
Jul, 2021
最近,视觉变换器在各种计算机视觉任务中表现出色,包括体素三维重建。然而,视觉变换器的窗口不是多尺度的,并且窗口之间没有连接,这限制了体素三维重建的准确性。因此,我们提出了一种移位窗口注意力体素三维重建网络。据我们所知,这是第一个将移位窗口注意力应用于体素三维重建的工作。在 ShapeNet 上的实验结果验证了我们的方法在单视图重建方面达到了 SOTA 准确性。
Dec, 2023
通过使用注意力权重来测量原始图像对应的补丁符记的重要性,我们提出了递归注意力多尺度转换器 (RAMS-Trans),它使用变压器的自我注意力以多尺度的方式递归地学习区分地区的注意力。
Jul, 2021
本研究提出了一种名为 Shuffle Transformer 的新型视觉 Transformer 架构,通过使用空间 Shuffle 策略构建窗口之间的连接,使其在分类、检测和分割等视觉任务中获得卓越表现。
Jun, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021