MViTv2: 改进的多尺度视觉 Transformer 用于分类和检测

CVPRDec, 2021

MViTv2: 改进的多尺度视觉 Transformer 用于分类和检测

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection

Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong...

TL;DR本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构，提出了一种改进版本的架构，将分解相对位置嵌入和残差池连接融入 MViTv2，并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频识别中，取得了优异的性能，在三个领域的实验表明，相比于传统的拼合注意力机制，MViTv2 的池化类型的注意力机制可以更好地进行特征提取和信息编码。

Abstract

In this paper, we study multiscale vision transformers (MViTv2) as a unified architecture for image and video classification, as well as object d

multiscale vision transformers image classification video classification object detection pooling attention

发现论文，激发创造

多尺度视觉变换器

Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器，它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔，它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。

Apr, 2021

MMViT: 多尺度多视角视觉 Transformer

提出了一种名为 Multiscale Multiview Vision Transformers（MMViT）的 transformer 模型，它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图，并使用交叉注意力块将不同视图的信息融合在一起，从而实现对输入的复杂高维表示。在音频和图像分类任务上，通过实验证明了 MMViT 的有效性和达到了最先进的结果。

Apr, 2023

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

MobileViTv3：具备本地、全局和输入特征的简单有效融合的移动友好视觉变换器

MobileViT 使用卷积神经网络和视觉 transformer 结合，提出了 MobileViTv3-block 来处理模型缩放以及简化学习任务问题，其在 ImageNet-1k、ADE20K、COCO 和 PascalVOC2012 数据集上表现更优。

Sep, 2022

多模态变换器实现无类别物体检测

本文提出使用多模态视觉变换器结合图像 - 文本对进行目标检测，证明了该方法可有效地提高跨领域和新颖目标的性能，并开发了一个高效的 MViT 体系结构，具有多尺度特征处理和多语言融合功能。

Nov, 2021

多视角变换器用于视频识别

本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型，通过实现不同空间和时间的分辨率，利用多个 encoder 对视频进行建模，从而在六个标准数据集上取得了最优秀的结果。

Jan, 2022

MeMViT: 基于记忆增强的多尺度视觉 Transformer，用于有效的长期视频识别

本文提出了一种在线处理视频并在迭代过程中缓存 “记忆” 的新策略，基于此构建了一个具有 30 倍增强的时间支持的存储器增强多尺度视觉变压器 ——MeMViT，可以比传统方法少使用 99.5％的计算资源，且在各种情况下实现了状态下最先进的识别准确率，尤其是在行动预测数据集方面。

Jan, 2022

移动视觉 Transformer 的可分离自注意力

提出了一种线性复杂度的分离 self-attention 方法，使用此方法的 mobileViTv2 模型在移动设备上运行速度为 MobileViT 的 3.2 倍，同时在 ImageNet 数据集上取得 75.6% 的 top-1 准确率，比 MobileViT 高 1%。

Jun, 2022

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021