视频预训练 Transformer:多模态预训练专家混合
介绍了一种基于 all-in-one Transformer 的视频 - 语言端到端模型,采用新的 token rolling 操作,实现了视频数据的时间表示方式,同时赋予模型能够处理多模态输入的能力。该模型通过 fine-tuning 能够在文本 - 视频检索、视频问答、多项选择和视觉常识推理等多个数据集上达到 state-of-the-art 的性能表现。
Mar, 2022
本文介绍一种基于 ConvNets 和多模态视觉语言 (VL) 的追踪方法,通过模态混合器(ModaMixer)和不对称的 ConvNet 搜索,学习新颖的统一自适应 VL 表示,仅使用 ConvNets 能够在 SOTA 追踪中表现出色,甚至超过几个基于 Transformer 的 SOTA 追踪器。
Jul, 2022
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本研究目标是视频文本检索 - 特别是一种联合嵌入,可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型,旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展,包括时间和空间方面的注意力机制。通过训练 WebVid-2M 数据集,作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。
Apr, 2021
本研究通过复制现有的最先进(SOTA)时空转换器模型,以尽可能符合计算限制,并批判性评估现有模型架构的优势和改进机会,以解决实时推理速度挑战,并在空间 - 时间 (ST) 关注层中引入专家混合 (MoE) 块来提高模型容量和降低推理成本。
May, 2024
本论文分析了导致视频模型性能下降的因素 —— 语言监督失真,提出了一种去除降级的预训练策略,并采用排序任务同时使用掩蔽技术进行可扩展的训练,得到了一系列新的模型。
May, 2023
该研究提出 CogVideo,一个 9B 参数的 transformer 预训练模型,通过继承预训练的文本到图像模型 CogView2 进行训练,同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型,CogVideo 在机器和人类评估中的表现均远超公开的模型。
May, 2022
本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型,通过实现不同空间和时间的分辨率,利用多个 encoder 对视频进行建模,从而在六个标准数据集上取得了最优秀的结果。
Jan, 2022
我们提出了一种使用无标签数据学习多模态表示的框架,利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT),我们从三个模态中提取丰富的多模态表示,并在视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务中对其性能进行评估。VATT 不需要监督预训练,其视觉 Transformer 在 Kinetics-400 上实现了 82.1%、在 Kinetics-600 上实现了 83.6%、在 Kinetics-700 上实现了 72.7%、在 Moments in Time 上实现了 41.1% 的最高准确率,并且将 VATT 迁移至图像分类任务中,其 ImageNet 的最高准确率达到了 78.7%。VATT 的音频 Transformer 在 AudioSet 上实现了 39.4% 的 mAP,而不需要监督预训练,表现出模型的泛化能力。
Apr, 2021