MMViT: 多尺度多视角视觉 Transformer

Apr, 2023

MMViT: Multiscale Multiview Vision Transformers

Yuchen Liu, Natasha Ong, Kaiyan Peng, Bo Xiong, Qifan Wang...

TL;DR提出了一种名为 Multiscale Multiview Vision Transformers（MMViT）的 transformer 模型，它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图，并使用交叉注意力块将不同视图的信息融合在一起，从而实现对输入的复杂高维表示。在音频和图像分类任务上，通过实验证明了 MMViT 的有效性和达到了最先进的结果。

Abstract

We present multiscale multiview vision transformers (MMViT), which introduces multiscale feature maps and multiview encodings to

multiscale multiview vision transformers transformer models multiscale feature maps multiview encodings audio and image classification

发现论文，激发创造

多尺度视觉变换器

Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器，它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔，它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。

Apr, 2021

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

多阶段跨尺度注意力的视觉骨干增强

我们提出了一个简单的附加注意力模块，通过多阶段和跨尺度的相互作用，克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足，从而显着提高了性能。

Aug, 2023

CrossViT: 跨注意力多尺度视觉 Transformer 用于图像分类

本文提出了一种名为 Dual-Branch Transformer 的模型，通过使用不同尺寸的图像块来获得更强的图像特征，进而学习多尺度特征表示，并采用交叉关注的方法进行多尺度特征的融合，使得计算复杂度得到控制，并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。

Mar, 2021

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021

高效多尺度多模态瓶颈变压器用于音视频分类

本文介绍了一种多尺度多模态转换器（MMT），利用层次化表示学习，进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合，提高动作识别准确率。

Jan, 2024

MViTv2: 改进的多尺度视觉 Transformer 用于分类和检测

本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构，提出了一种改进版本的架构，将分解相对位置嵌入和残差池连接融入 MViTv2，并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频识别中，取得了优异的性能，在三个领域的实验表明，相比于传统的拼合注意力机制，MViTv2 的池化类型的注意力机制可以更好地进行特征提取和信息编码。

Dec, 2021

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

多视角组变换器与空间编码的三维形状分析

最近，基于视图的三维形状识别方法的结果已经饱和，而具有出色性能的模型由于参数规模巨大无法部署在内存有限的设备上。为了解决这个问题，我们提出了一种基于知识蒸馏的压缩方法，可以在尽可能保持模型性能的同时大大减少参数数量。

Dec, 2023

多尺度视觉 Longformer: 一种新的高分辨率图像编码 Vision Transformer

本文提出了一种新的 Vision Transformer (ViT) 结构 Multi-Scale Vision Longformer，可以提高处理高分辨率图像的能力，主要通过多尺度模型结构和视觉 Longformer 的注意机制来实现，经过全面的实验表明在多项计算机视觉任务中，新的 ViT 模型比现有的 ViT 模型和基于 ResNet 的模型及其他竞争模型的性能都更好。

Mar, 2021