VideoPrism：一种用于视频理解的基础视觉编码器

Feb, 2024

VideoPrism：一种用于视频理解的基础视觉编码器

VideoPrism: A Foundational Visual Encoder for Video Understanding

Long Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan...

TL;DR介绍了一种名为 VideoPrism 的通用视频编码器，利用单个冻结模型解决各种视频理解任务。通过在异构语料库上预训练 VideoPrism，其中包含 3600 万个高质量的视频字幕对和 5.82 亿个带有噪声的平行文本视频剪辑，通过全局 - 局部语义视频嵌入和标记重排方案改进了遮挡自编码模型的预训练方法，使得 VideoPrism 主要关注视频模式，同时利用与视频相关的宝贵文本。我们在四个广泛的视频理解任务组上对 VideoPrism 进行了广泛的测试，从网络视频问答到科学计算机视觉，实现了 30 个有 33 个视频理解基准中的最优性能。

Abstract

We introduce videoprism, a general-purpose video encoder that tackles diverse video understanding tasks with a single frozen model. We pre

videoprism video encoder video understanding tasks pretraining approach semantic video embeddings

发现论文，激发创造

凝固的时间：一种用于端到端检索的联合视频和图像编码器

本研究目标是视频文本检索 - 特别是一种联合嵌入，可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型，旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展，包括时间和空间方面的注意力机制。通过训练 WebVid-2M 数据集，作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。

Apr, 2021

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

对比预训练视频优先编码器的简单配方：超过 16 帧

我们研究了长时间、真实世界的视频，发现了视频与文本模型的两个限制：空间能力不足和内存消耗过高。通过分析不同的高效方法进行内存 / 准确度权衡，我们发现简单地遮盖视频的大部分内容是扩展编码器的一种最有效方式。我们提出的简单方法，能够训练具有 10 亿参数的长视频到文本模型，并在长时间依赖性基准测试中胜过更大的信息聚合模型。

Dec, 2023

VIMPAC: 基于掩码预测和对比学习的视频预训练

该研究基于预测任务以及块状掩码策略，提出一种输入处理策略及无数据扩充方法，以达到在 SSV2、Diving48 等视频理解数据集上实现最先进效果的目的，并对模型伸缩性和预训练方法进行了详细分析。

Jun, 2021

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

OmniVid: 通用视频理解的生成框架

通过使用语言作为标签并引入时间和区域标记，我们寻求统一视频理解任务的输出空间，以建立全共享的编码器 - 解码器架构，并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果，为更普遍的视频理解提供了新的观点。

Mar, 2024

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

VideoOFA: 为视频到文本生成进行的两阶段预训练

该研究提出了一种新的两阶段预训练框架来生成视频描述和回答问题，称为 VideoOFA 模型，在大规模图像 - 文本数据上预先训练表示学习，然后在中间视频 - 文本预训练阶段仅适应于视频数据来学习时空推理等视频特定技能，这使得该模型在四个视频描述基准测试中实现了新的最优表现，并在两个开放式的视频问答数据集上优于现有模型，展示了其作为通用视频 - 文本模型的泛化能力。

May, 2023