ResFormer：多尺度训练下的 ViT 模型缩放

CVPRDec, 2022

ResFormer：多尺度训练下的 ViT 模型缩放

ResFormer: Scaling ViTs with Multi-Resolution Training

Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao...

TL;DRResFormer 框架通过多分辨率训练方法和全局 - 局部位置嵌入策略，在图像分类、目标检测、语义分割和视频动作识别等领域取得了较好的结果。

Abstract

vision transformers (ViTs) have achieved overwhelming success, yet they suffer from vulnerable resolution scalability, i.e., the performance drops drastically when presented with input resolutions that are unseen

vision transformers resolution scalability multi-resolution training scale consistency loss global-local positional embedding

发现论文，激发创造

ViTAR: 任意分辨率的视觉 Transformer

通过动态分辨率调整和模糊位置编码，ViTAR（任意分辨率的视觉 Transformer）实现了对不同分辨率图像的高效处理和一致的位置感知，提升了 ViT（视觉 Transformer）的分辨率可扩展性和性能。

Mar, 2024

多尺度视觉 Longformer: 一种新的高分辨率图像编码 Vision Transformer

本文提出了一种新的 Vision Transformer (ViT) 结构 Multi-Scale Vision Longformer，可以提高处理高分辨率图像的能力，主要通过多尺度模型结构和视觉 Longformer 的注意机制来实现，经过全面的实验表明在多项计算机视觉任务中，新的 ViT 模型比现有的 ViT 模型和基于 ResNet 的模型及其他竞争模型的性能都更好。

Mar, 2021

多尺度视觉变换器

Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器，它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔，它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。

Apr, 2021

适应形态：为可扩展视觉识别调整视觉变换器

提出了一种叫做 “AdaptFormer” 的方法，可将预训练的视觉 Transformer 模型快速适应于多个图像和视频识别任务中，在不更新原预训练参数的情况下，只增加不到 2％的额外参数，就能显著提高模型的可迁移性和表现

May, 2022

HRFormer: 用于密集预测的高分辨率 Transformer

本研究提出了一种名为 High-Resolution Transformer 的方法，用于学习密集预测任务中的高分辨率表示，并取得了在人体姿态估计和语义分割任务中较好的结果。

Oct, 2021

ResT: 用于视觉识别的高效 Transformer

本文提出了一种高效的多尺度视觉 Transformer 模型，名为 ResT，可作为图像识别的通用骨干。它通过一些优势来应对传统 Transformer 模型在应对分辨率固定的原始图像中存在的缺陷，特别是建立了一种内存高效的多头自注意力机制、一种空间关注的位置编码方法，并将贴片嵌入设计为一系列重叠卷积运算，最终提高了大量原始图像识别和下游任务的性能。

May, 2021

图像掩蔽残差学习用于深度视觉 Transformer 的扩展

深度 ViT 在使用 MIM 进行预训练时暴露出深层退化问题，为了缓解深度 ViT 的训练困难，我们引入了一种自监督学习框架 MIRL，该框架显著缓解了退化问题，使得 ViT 的深度扩展成为性能提升的有希望的方向。

Sep, 2023

FaceFormer：基于 Transformer 的尺度感知盲人脸部修复

本研究提出了一种新型的规模感知的盲目人脸修复模型，名为 FaceFormer，利用 Facial Feature Up-sampling 模块生成动态上采样滤波器以适应不同尺度的脸部输入，并借助于 facial feature embedding 模块利用 transformer 分层提取面部潜在多样性和稳健性，该方法在合成数据集训练得到的结果不仅具有高保真度和鲁棒性，还能泛化至自然低质量图像。

Jul, 2022

AutoFormer: 为视觉识别搜索 Transformer

本文提出了一种名为 AutoFormer 的新一代架构搜索框架，该框架是针对视觉分类和检测任务中 transformer 网络设计的，通过优化 supernet 让数千个子网络获得很好的训练，最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能，且具有良好的迁移性能和蒸馏实验性能。

Jul, 2021

ViR: 视觉记忆网络

基于自注意力机制的视觉转换器（ViTs）因其对长距离空间依赖关系和大规模训练的出色能力而受到了广泛的关注，然而，其二次复杂度限制了其在许多需要快速推理的场景中的应用。受到自然语言处理中并行化模型的启发，我们提出了一种新的计算机视觉模型，命名为视觉保留网络（ViR），具有双并行和循环结构，以在快速推理和并行训练之间达到最佳平衡，并在需要更高分辨率图像的任务中具有可扩展性。ViR 是第一个尝试在通用视觉骨干网络中实现双并行和循环等效性的方法，我们通过大量实验证实了 ViR 的有效性，并提供了代码和预训练模型的公开获取。

Oct, 2023