单一视觉变换器的图像和视频联合学习
本文探索视频 transformer 的几个训练范式,并提出了一种称为 CoVeR 的方法,通过与图像的共同训练,提高了视频 transformer 的性能,尤其是在动作识别上,取得了最好的结果。
Dec, 2021
本文提出了一种名为 PolyViT 的多模态 Transformer 模型,并通过在单模态上协同训练不同任务,提高了每个任务的准确性。通过在多模态和任务上共同训练 PolyViT 模型,可以更加节省参数,并学习可适用多个领域的表示。此外,我们证明了共同训练是简单和实用的,因为我们不需要为每个数据集组合调整超参数,而是可以直接从标准单任务训练中适应。
Nov, 2021
我们通过利用脑科学证据来探索预训练的多模态视频变换器模型,发现视觉增强了与语言处理中的遮蔽预测性能,支持模型中交叉模态表示可以受益于个体模态,但未发现与大脑相关的信息,我们展示使用一个需要视觉 - 语言推理的任务,可以改善预训练联合表示的脑对齐效果,这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力,但也表明改善这些模型的脑对齐可能需要新的方法。
Nov, 2023
提出了一种名为 TeViT 的视觉 Transformer,它在视频实例分割任务中高效地对关键的时间信息进行建模,并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。
Apr, 2022
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
本文提出了一种基于 Transformer 的视频识别框架 VTN,它相比于传统的 3D ConvNets,通过整个视频序列的注意力机制实现动作分类,并在训练和推断时分别快 16.1 倍和 5.1 倍,同时在 Kinetics-400 数据集上获得了有竞争力的结果,表明了精度和推断速度之间的权衡。
Feb, 2021
该研究提出了一种基于 Vision Transformer 的模型来描述图像集,借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系,模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。
Oct, 2022
提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特征,该模型在行动识别任务中具有最先进的准确度,并在基于帧的多目标跟踪任务中具有竞争优势。
Mar, 2023
本研究目标是视频文本检索 - 特别是一种联合嵌入,可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型,旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展,包括时间和空间方面的注意力机制。通过训练 WebVid-2M 数据集,作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。
Apr, 2021