双窗口训练高分辨率视觉 Transformer

Oct, 2023

双窗口训练高分辨率视觉 Transformer

Win-Win: Training High-Resolution Vision Transformers from Two Windows

Vincent Leroy, Jerome Revaud, Thomas Lucas, Philippe Weinzaepfel

TL;DR高效训练和推理高分辨率视觉 Transformer 模型的新策略是只保留 N 个随机窗口的高分辨率输入，通过学习窗口内的标记间的局部交互和窗口间的全局交互，模型能够直接处理高分辨率输入。这种策略在使用相对位置嵌入（如旋转嵌入）时表现出了显著的有效性，训练速度是全分辨率网络的 4 倍，而且与现有方法相比使用起来更加简单。将此策略应用于语义分割等密集视觉任务中，发现使用 2 个窗口的简单设置效果最佳，因此命名为 Win-Win 方法。将此策略进一步扩展到光流等双目任务中，达到了在 Spring 基准测试中超越最佳竞争对手一个数量级更快推理时间的最先进性能。

Abstract

transformers have become the standard in state-of-the-art vision architectures, achieving impressive performance on both image-level and dense pixelwise tasks. However, training vision transformers for high-resol

transformers vision transformers high-resolution tasks efficient training semantic segmentation

发现论文，激发创造

Swin Transformer: 使用偏移窗口的分层视觉 Transformer

本文提出了一种新的视觉 Transformer，称为 Swin Transformer，它在计算机视觉领域中作为通用骨干具有很强的能力，包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的，并且模型和代码是公开的。

Mar, 2021

RSIR Transformer：使用随机采样窗口和重要区域窗口的分层视觉 Transformer

本文介绍了 RS-Win 和 IR-Win 两种新的注意力机制，用于增强分层视觉 Transformer 的全局建模能力，同时也提高了自我注意模块对图像重要区域的关注能力，这个新的设计有助于在通用视觉任务中提高 RSIR-Win Transformer 的性能。

Apr, 2023

超越固定关注窗口：动态窗口视觉变换器

本文介绍了一种名为动态窗口视觉 Transformer (DW-ViT) 的新型方法，其采用动态多尺度窗口对模型性能的影响进行了探索，并通过对三个数据集的详细性能评估，与相关的最新技术方法相比，DW-ViT 表现出最佳性能。

Mar, 2022

Swin Transformer V2：扩大容量和分辨率

本文旨在探索大规模计算机视觉模型，并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题，成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型，在多项计算机视觉任务上取得了最佳性能表现，且训练效率远高于谷歌的类似模型。

Nov, 2021

图像超分辨率变换器中激活更多像素

为了更好的利用 Transformer 的潜力以进行图片重构，在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外，还引入了重叠交叉注意力模块并采用相同任务的预训练策略，拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。

May, 2022

ViTAR: 任意分辨率的视觉 Transformer

通过动态分辨率调整和模糊位置编码，ViTAR（任意分辨率的视觉 Transformer）实现了对不同分辨率图像的高效处理和一致的位置感知，提升了 ViT（视觉 Transformer）的分辨率可扩展性和性能。

Mar, 2024

R3D-SWIN：应用移位窗口注意力进行单视角三维重建

最近，视觉变换器在各种计算机视觉任务中表现出色，包括体素三维重建。然而，视觉变换器的窗口不是多尺度的，并且窗口之间没有连接，这限制了体素三维重建的准确性。因此，我们提出了一种移位窗口注意力体素三维重建网络。据我们所知，这是第一个将移位窗口注意力应用于体素三维重建的工作。在 ShapeNet 上的实验结果验证了我们的方法在单视图重建方面达到了 SOTA 准确性。

Dec, 2023

用于像素级识别结构组件和损伤的高分辨率视觉变压器

在本研究中，我们基于视觉变换器和拉普拉斯金字塔缩放网络开发了一个语义分割网络，用于高效解析高分辨率的视觉检测图像。通过在桥梁检测报告图像数据集上进行全面的实验评估，我们的提出的框架在像素级材料检测方面具有广泛的应用价值。

Aug, 2023

HIRI-ViT：高分辨率输入下的视觉 Transformer 尺度扩展

一种基于高分辨率输入的新型混合主干网络 (HIRI-ViT)，通过将典型的卷积神经网络操作分解为两个并行的卷积神经网络分支来构建，一个直接以高分辨率特征为输入，但使用更少的卷积操作，另一个首先进行下采样，然后在低分辨率特征上使用更多的卷积操作，通过对 ImageNet、COCO 和 ADE20K 数据集的实验表明了 HIRI-ViT 的优越性。

Mar, 2024

稠密预测的视觉 Transformer

本文提出了稠密视觉 Transformer（dense vision transformers）作为密集预测任务的主干网络，相对于全卷积网络，该结构以恒定和较高的分辨率处理表示，并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上，我们的实验表明，该结构在有大量训练数据的情况下能够显着提高性能，是一种大有前途的新型神经网络结构。

Mar, 2021