MeMViT: 基于记忆增强的多尺度视觉 Transformer，用于有效的长期视频识别

Jan, 2022

MeMViT: 基于记忆增强的多尺度视觉 Transformer，用于有效的长期视频识别

MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong...

TL;DR本文提出了一种在线处理视频并在迭代过程中缓存 “记忆” 的新策略，基于此构建了一个具有 30 倍增强的时间支持的存储器增强多尺度视觉变压器 ——MeMViT，可以比传统方法少使用 99.5％的计算资源，且在各种情况下实现了状态下最先进的识别准确率，尤其是在行动预测数据集方面。

Abstract

While today's video recognition systems parse snapshots or short clips accurately, they cannot connect the dots and reason across a longer range of time yet. Most existing video architectures can only process <5 seconds of a video without hitting the computation or memory bottlenecks.

video recognition systems long-term modeling memvit temporal support action anticipation datasets

发现论文，激发创造

多尺度视觉变换器

Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器，它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔，它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。

Apr, 2021

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021

MMViT: 多尺度多视角视觉 Transformer

提出了一种名为 Multiscale Multiview Vision Transformers（MMViT）的 transformer 模型，它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图，并使用交叉注意力块将不同视图的信息融合在一起，从而实现对输入的复杂高维表示。在音频和图像分类任务上，通过实验证明了 MMViT 的有效性和达到了最先进的结果。

Apr, 2023

高效 ViT: 带级联分组注意力的内存高效视觉 Transformer

本研究提出一种高速的视觉 Transformer 模型 EfficientViT，通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

记忆巩固实现长时视频理解

利用现有的预训练视频 Transformer，并通过简单的微调来重复利用过去激活衍生的非参数化记忆，从而扩展其上下文到过去，以实现对长视频的优秀学习表现。

Feb, 2024

M3T：视频目标分割和跟踪的多尺度记忆匹配

通过提出一种新颖的，DET-R 风格的编码器 - 解码器架构，我们克服了长视频中有关小对象的数据特性所带来的挑战，并在两个复杂数据集上实现了最先进的性能。

Dec, 2023

MViTv2: 改进的多尺度视觉 Transformer 用于分类和检测

本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构，提出了一种改进版本的架构，将分解相对位置嵌入和残差池连接融入 MViTv2，并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频识别中，取得了优异的性能，在三个领域的实验表明，相比于传统的拼合注意力机制，MViTv2 的池化类型的注意力机制可以更好地进行特征提取和信息编码。

Dec, 2021

使用状态空间视频模型进行长视频片段分类

提出了一种结合自我关注和 S4 层优点的高效长范围视频模型，具有复杂的长范围时空依赖性，比传统的全自注意模型快 2.63 倍，占用 8 倍更少的 GPU 内存，并在视频分类等任务中取得了最先进的结果。

Apr, 2022

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

视频实例分割的时间高效视觉 Transformer

提出了一种名为 TeViT 的视觉 Transformer，它在视频实例分割任务中高效地对关键的时间信息进行建模，并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。

Apr, 2022