通过高效的后预训练来获取视频基础模型

Oct, 2023

通过高效的后预训练来获取视频基础模型

Harvest Video Foundation Models via Efficient Post-Pretraining

Yizhuo Li, Kunchang Li, Yinan He, Yi Wang, Yali Wang...

TL;DR我们提出了一种从图像模型中收集视频基础模型的有效框架，方法简单直观，通过随机删除输入视频补丁和屏蔽输入文本来显著提高训练效率，并强化跨模态融合的学习，该方法在多种视频语言下游任务中取得了顶尖性能，具有极高的效率，只需要 WebVid-10M 作为预训练数据，希望我们的方法能够成为常见视频基础模型的简单但强大的替代品，提供构建这些模型的有用见解，并使大型预训练模型更易于获取和持续发展。

Abstract

Building video-language foundation models is costly and difficult due to the redundant nature of video data and the lack of high-quality video-language datasets. In this paper, we propose an efficient framework t

video-language foundation models high-quality video-language datasets efficient framework patch dropping text masking

发现论文，激发创造

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

重新审视分类器：将视觉语言模型应用于视频识别

该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法，简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。

Jul, 2022

对比预训练视频优先编码器的简单配方：超过 16 帧

我们研究了长时间、真实世界的视频，发现了视频与文本模型的两个限制：空间能力不足和内存消耗过高。通过分析不同的高效方法进行内存 / 准确度权衡，我们发现简单地遮盖视频的大部分内容是扩展编码器的一种最有效方式。我们提出的简单方法，能够训练具有 10 亿参数的长视频到文本模型，并在长时间依赖性基准测试中胜过更大的信息聚合模型。

Dec, 2023

预训练模型在多模式标题生成中的嫁接

本文提出了一种新方法，将预训练的视频 - 语言模型中的视频编码器嫁接到生成式的预训练语言模型上，并通过跨模态和内模态关系的一致性融合机制集成不同组件，以实现多模标题的生成。经过实验证明，嫁接模型在从实际应用程序收集的全新数据集上取得了强大的结果。

Nov, 2022

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

本文介绍了利用图像字幕预训练高质量视频模型的方法，并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效，使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能，并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。

Apr, 2023

InternVideo2：面向多模态视频理解的视频基础模型的扩展

我们介绍 InternVideo2，这是一种新的视频基础模型（ViFM），在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式，统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督学习框架。不同的训练阶段通过不同的预训练任务引导我们的模型捕捉不同层次的结构和语义信息。在数据层面上，我们通过对视频进行语义分割和生成视频 - 音频 - 语音字幕来优先考虑时空一致性，从而提高了视频和文本之间的对齐性。我们为 InternVideo2 扩展了数据和模型规模。通过广泛的实验证明了我们的设计，并展示了在 60 多个视频和音频任务上的最先进性能。值得注意的是，我们的模型在各种与视频有关的字幕、对话和长期视频理解基准上优于其他模型，凸显了它在推理和理解长时间上下文方面的能力。代码和模型可在此 URL 获取。

Mar, 2024

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024