多实体视频 Transformer 用于细粒度视频表示学习
本研究提出了一种新型的视频分类模型 ——UniFormer,它集成了 3D 卷积和自注意力机制的优点,通过浅层和深层分别学习本地和全局特征,从而在计算量和准确性之间取得了理想的平衡,经实验证明该模型的泛化和针对性能均优于其他方法。
Jan, 2022
本文提出了一种用于构建视频网络家族的通用范例,通过将预训练的 Vision Transformers 与高效的 UniFormer 设计相结合,实现了理想的准确性与计算平衡,并在 8 个常见的视频基准测试中取得了最先进的识别性能。
Nov, 2022
本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型,通过实现不同空间和时间的分辨率,利用多个 encoder 对视频进行建模,从而在六个标准数据集上取得了最优秀的结果。
Jan, 2022
近期基于学习的多视点立体(MVS)方法中,引入了具有注意机制的基于 Transformer 模型的最新进展;然而,现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究,导致深度估计能力有限。本文提出了 MVSFormer++ 方法,通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分,将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习,并采用不同的注意机制对特征编码器和代价体积正则化进行处理,分别关注特征和空间聚合。此外,我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能,包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是,MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。
Jan, 2024
本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图,实现了视频内 actions 的时空不变性,并且该方法不再需要使用负样本或专用存储器。该方法在动作识别基准数据集(Kinetics-400,UCF-101,HMDB-51 和 SSv2)上表现出色,并能够在小批量的情况下更快地收敛。
Dec, 2021
本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别,此架构可以有效地处理空间 - 时间关注,能够捕捉短距离和长距离的时空依赖关系,并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数,从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。
Dec, 2021
本文提出了一种面向视频任务的基于 Transformer 的模型,通过自监督学习并增加对视频帧之间时间轴的考虑,有效地消除了空间偏差,提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。
Jul, 2022
本文介绍了 SeqFormer,一种基于视频实例分割的模型,通过注意力机制捕捉视频帧之间的关系,定位每帧的实例并聚合时间信息,从而实现自然的实例跟踪并预测动态遮罩序列,结合 Swin Transformer 可获得更高的 AP,是视频实例分割领域的强基线模型。
Dec, 2021
FuseFormer 是一种针对视频修复任务的 Transformer 模型,通过使用细粒度特征融合的新型软分割和软组合操作,实现了更加有效的特征传播和内容合成,优于现有技术方法。
Sep, 2021
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021