VideoOFA: 为视频到文本生成进行的两阶段预训练

May, 2023

VideoOFA: 为视频到文本生成进行的两阶段预训练

VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation

Xilun Chen, Lili Yu, Wenhan Xiong, Barlas Oğuz, Yashar Mehdad...

TL;DR该研究提出了一种新的两阶段预训练框架来生成视频描述和回答问题，称为 VideoOFA 模型，在大规模图像 - 文本数据上预先训练表示学习，然后在中间视频 - 文本预训练阶段仅适应于视频数据来学习时空推理等视频特定技能，这使得该模型在四个视频描述基准测试中实现了新的最优表现，并在两个开放式的视频问答数据集上优于现有模型，展示了其作为通用视频 - 文本模型的泛化能力。

Abstract

We propose a new two-stage pre-training framework for video-to-text generation tasks such as video captioning and video question answering: A generative encoder-decoder model is first jointly pre-trained on massi

pre-training video-to-text spatio-temporal reasoning videoofa model universal video-to-text model

发现论文，激发创造

OFA: 通过一个简单的序列到序列学习框架统一架构、任务和模态

本文提出一种支持任务综合性的任务不可知和模态不可知框架 OFA，用于统一多模态预训练。OFA 在仅使用 2000 万个公开可用的图像 - 文本对进行预训练情况下，在一系列交叉模态任务上实现了新的 SOTAs，并在单模态任务上取得了高竞争性能。同时，OFA 还可以有效地转移到看不见的任务和领域中。

Feb, 2022

基于 Transformer 的大规模预训练文字到视频生成技术 CogVideo

该研究提出 CogVideo，一个 9B 参数的 transformer 预训练模型，通过继承预训练的文本到图像模型 CogView2 进行训练，同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型，CogVideo 在机器和人类评估中的表现均远超公开的模型。

May, 2022

基于文本的视频生成

通过训练条件生成模型从文本中提取静态和动态信息，结合 VAE 和 GAN 的混合框架，采用画线和过滤器来生成可信度高和多样性强的文本视频。

Oct, 2017

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

多模态视频字幕生成的端到端生成预训练

提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT)，通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标，以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。

Jan, 2022

对比预训练视频优先编码器的简单配方：超过 16 帧

我们研究了长时间、真实世界的视频，发现了视频与文本模型的两个限制：空间能力不足和内存消耗过高。通过分析不同的高效方法进行内存 / 准确度权衡，我们发现简单地遮盖视频的大部分内容是扩展编码器的一种最有效方式。我们提出的简单方法，能够训练具有 10 亿参数的长视频到文本模型，并在长时间依赖性基准测试中胜过更大的信息聚合模型。

Dec, 2023

文本无关视频生成的扩展方法

通过使用无文本视频进行训练，研究表明，扩大训练集规模并重新引入部分文本标签，可以使基于扩散的文本到视频生成的性能得到提升和改进。

Dec, 2023

OmniVid: 通用视频理解的生成框架

通过使用语言作为标签并引入时间和区域标记，我们寻求统一视频理解任务的输出空间，以建立全共享的编码器 - 解码器架构，并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果，为更普遍的视频理解提供了新的观点。

Mar, 2024

利用多项选择题桥接视频文本检索

该研究提出了一种新的预训练方法，利用多项选择问题建立视频和文本之间的语义联系以实现更高效的检索，其结果在不同实验设置下如零成本和微调等多种数据集上均优于现有方法。

Jan, 2022

TVTSv2：学习开箱即用的大规模时空视觉表示

本论文分析了导致视频模型性能下降的因素 —— 语言监督失真，提出了一种去除降级的预训练策略，并采用排序任务同时使用掩蔽技术进行可扩展的训练，得到了一系列新的模型。

May, 2023