多实体视频 Transformer 用于细粒度视频表示学习

Nov, 2023

多实体视频 Transformer 用于细粒度视频表示学习

Multi-entity Video Transformers for Fine-Grained Video Representation Learning

Matthew Walmer, Rose Kanjirathinkal, Kai Sheng Tai, Keyur Muzumdar, Taipeng Tian...

TL;DR通过重新审视变形器结构来改进视频表示学习领域的状态，利用多实体视频变换器架构及自我监督方法实现了在多个细粒度视频基准上的最先进结果。

Abstract

The area of temporally fine-grained video representation learning aims to generate frame-by-frame representations for temporally dense tasks. In this work, we advance the state-of-the-art for this area by re-examining the design of →

temporally fine-grained video representation learning transformer architectures self-supervised method spatial information multi-entity video transformer

发现论文，激发创造

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022

UniFormerV2：将图像 ViTs 赋能视频的时空学习

本文提出了一种用于构建视频网络家族的通用范例，通过将预训练的 Vision Transformers 与高效的 UniFormer 设计相结合，实现了理想的准确性与计算平衡，并在 8 个常见的视频基准测试中取得了最先进的识别性能。

Nov, 2022

多视角变换器用于视频识别

本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型，通过实现不同空间和时间的分辨率，利用多个 encoder 对视频进行建模，从而在六个标准数据集上取得了最优秀的结果。

Jan, 2022

MVSFormer++：揭示多视角立体匹配中 Transformer 细节中的问题

近期基于学习的多视点立体（MVS）方法中，引入了具有注意机制的基于 Transformer 模型的最新进展；然而，现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究，导致深度估计能力有限。本文提出了 MVSFormer++ 方法，通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分，将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习，并采用不同的注意机制对特征编码器和代价体积正则化进行处理，分别关注特征和空间聚合。此外，我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能，包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是，MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。

Jan, 2024

自监督视频 Transformer

本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图，实现了视频内 actions 的时空不变性，并且该方法不再需要使用负样本或专用存储器。该方法在动作识别基准数据集（Kinetics-400，UCF-101，HMDB-51 和 SSv2）上表现出色，并能够在小批量的情况下更快地收敛。

Dec, 2021

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022

SeqFormer: 序列 Transformer 用于视频实例分割

本文介绍了 SeqFormer，一种基于视频实例分割的模型，通过注意力机制捕捉视频帧之间的关系，定位每帧的实例并聚合时间信息，从而实现自然的实例跟踪并预测动态遮罩序列，结合 Swin Transformer 可获得更高的 AP，是视频实例分割领域的强基线模型。

Dec, 2021

FuseFormer: 用于视频修复的 Transformer 融合细粒度信息

FuseFormer 是一种针对视频修复任务的 Transformer 模型，通过使用细粒度特征融合的新型软分割和软组合操作，实现了更加有效的特征传播和内容合成，优于现有技术方法。

Sep, 2021

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021