ResT: 用于视觉识别的高效 Transformer

May, 2021

ResT: 用于视觉识别的高效 Transformer

ResT: An Efficient Transformer for Visual Recognition

Qinglong Zhang, Yubin Yang

TL;DR本文提出了一种高效的多尺度视觉 Transformer 模型，名为 ResT，可作为图像识别的通用骨干。它通过一些优势来应对传统 Transformer 模型在应对分辨率固定的原始图像中存在的缺陷，特别是建立了一种内存高效的多头自注意力机制、一种空间关注的位置编码方法，并将贴片嵌入设计为一系列重叠卷积运算，最终提高了大量原始图像识别和下游任务的性能。

Abstract

This paper presents an efficient multi-scale vision transformer, called rest, that capably served as a general-purpose backbone for image recogni

multi-scale vision transformer rest image recognition self-attention position encoding

发现论文，激发创造

Restormer: 高分辨率图像修复的高效 Transformer 模型

本文提出了一种名为 Restoration Transformer 的有效 Transformers 模型，通过几个关键设计，使其能够捕捉长距离像素交互，同时仍适用于大图像，在图像去噪、去模糊和降雨方面达到了最先进的效果。

Nov, 2021

ResNeSt: 分组注意网络

本文提出一种名为 ResNeSt 的模型，利用特征映射关注和多路径表示对图像进行分类，结构简单且计算统一，能够实现较好的精度和延迟折衷，同时在多个公共基准测试中也取得了更好的迁移学习结果。

Apr, 2020

ResFormer：多尺度训练下的 ViT 模型缩放

ResFormer 框架通过多分辨率训练方法和全局 - 局部位置嵌入策略，在图像分类、目标检测、语义分割和视频动作识别等领域取得了较好的结果。

Dec, 2022

ReSTR: 使用 Transformers 实现无卷积参考图像分割

本文介绍 ReSTR，一种卷积神经网络瓶颈可用的 Transformer，它可以用自注意力机制来融合图像和语言信息。该模型在公共基准测试中表现出色。

Mar, 2022

RealFormer: 喜欢残差注意力的 Transformer

提出了一种名为 RealFormer 的技术，可以创建残差注意力层的 Transformer 网络，并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练，而且还可以导致具有更少注意力的模型，并提供了预训练检查点。

Dec, 2020

邻域注意力加强 ResUNet 编码器以提高道路提取精度

提出了一种名为 ResUNetFormer 的深度语义分割神经网络，利用残差学习、HetConvs、UNet 和视觉变压器的能力，用于精准道路提取。在公开的马萨诸塞州道路数据集上，统计和视觉结果表明了 ResUNetFormer 比卷积神经网络和视觉变压器更优。

Jun, 2023

ReViT: 增强视觉变压器的注意力残差连接用于视觉识别

通过引入新的残差注意力学习方法来改善 Vision Transformer (ViT) 架构，包括增加视觉特征多样性和模型的鲁棒性，以提高识别系统的准确性。在五个图像分类基准测试中，通过对 ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102 和 Oxford-IIIT Pet 数据集的评估，显示出所提方法的有效性和鲁棒性。此外，该方法在 COCO2017 数据集上的实验表明，在空间感知转换器模型中实现时，能发现和整合目标检测和目标实例分割的语义和空间关系。

Feb, 2024

RMT：记忆网络与视觉转换器的结合

我们结合了 RetNet 和 Transformer 提出了 RMT，通过引入显式衰减和空间先验知识的方式，使得 RMT 在计算机视觉任务中表现出卓越的性能。

Sep, 2023

RAMS-Trans: 基于循环注意力多尺度变换器进行细粒度图像识别

通过使用注意力权重来测量原始图像对应的补丁符记的重要性，我们提出了递归注意力多尺度转换器 (RAMS-Trans)，它使用变压器的自我注意力以多尺度的方式递归地学习区分地区的注意力。

Jul, 2021

Res2Net：一种新的多尺度骨干网络结构

本文提出了一种新型卷积神经网络模块 ——Res2Net，在单个残差块内构建分层残差连接，从而以粒度的方式表示多尺度特征，并扩大每个网络层的感受野范围。在图像分类和目标检测等计算机视觉任务中，Res2Net 优于目前的基线方法。

Apr, 2019