多视角变换器用于视频识别
Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器,它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔,它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。
Apr, 2021
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
提出了一种名为 Multiscale Multiview Vision Transformers(MMViT)的 transformer 模型,它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图,并使用交叉注意力块将不同视图的信息融合在一起,从而实现对输入的复杂高维表示。在音频和图像分类任务上,通过实验证明了 MMViT 的有效性和达到了最先进的结果。
Apr, 2023
本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构,提出了一种改进版本的架构,将分解相对位置嵌入和残差池连接融入 MViTv2,并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频识别中,取得了优异的性能,在三个领域的实验表明,相比于传统的拼合注意力机制,MViTv2 的池化类型的注意力机制可以更好地进行特征提取和信息编码。
Dec, 2021
通过重新审视变形器结构来改进视频表示学习领域的状态,利用多实体视频变换器架构及自我监督方法实现了在多个细粒度视频基准上的最先进结果。
Nov, 2023
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示,同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法,以提高深度估计的准确性。实验证明,这种方法在 DTU 数据集和 Tanks and Temples 基准测试中取得了最先进的结果。
Dec, 2023
本文提出了一种基于 2D CNN 骨干网络的新的多视图融合(MVF)模块,用于视频动作识别中的时空建模,并利用可分离卷积实现了高效处理,实验结果表明,该方法在不降低识别精度的情况下降低了模型复杂度。
Dec, 2020
本文介绍了一种称为 MVSTR 的网络,利用 Transformer 提取拥有全局上下文和三维一致性的密集特征,对于 Multi-View Stereo(MVS)可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题,提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块,并在实验中获得了最佳性能。
Dec, 2021
提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特征,该模型在行动识别任务中具有最先进的准确度,并在基于帧的多目标跟踪任务中具有竞争优势。
Mar, 2023