通过生成式预训练学习长形式视频首选权

Apr, 2024

通过生成式预训练学习长形式视频首选权

Learning Long-form Video Prior via Generative Pre-Training

Jinheng Xie, Jiajun Feng, Zhaoxu Tian, Kevin Qinghong Lin, Yawen Huang...

TL;DR通过使用视觉位置如边界框和关键点来表示视频中的关键信息，我们的方法利用生成式预训练技术（GPT）对长时视频进行学习，证明了其在长时视频先验学习中具有巨大潜力。

Abstract

Concepts involved in long-form videos such as people, objects, and their interactions, can be viewed as following an implicit prior. They are notably complex and continue to pose challenges to be comprehensively learned. In recent years, →

long-form videos generative pre-training visual locations bounding boxes keypoints

发现论文，激发创造

VisorGPT：通过生成预训练学习视觉先验

本文旨在学习视觉先验，并通过生成预训练学习 Visual prior，以最大化可能性建模对象位置和形状等先验信息，进而能够在许多视觉任务中应用。实验结果表明，可用于多种视觉任务，例如控制网络中的条件图像合成模型，并提供代码供参考。

May, 2023

迈向长型视频理解

本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构，针对大规模数据集进行长型视频理解任务的研究，并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果，同时在 AVA 数据集上也优于可比较的最新研究成果。

Jun, 2021

PGT: 在长视频上训练模型的渐进式方法

我们提出了逐步传递信息的逐步训练（PGT）方法，将视频视为满足马尔可夫属性的串行片段，并在多个步骤中沿时间维度逐渐传播信息来整体训练它，从而在不需要太多资源的情况下能够端到端地训练长时间的视频，并确保了信息的有效传输，其经验结果表明，它在不同的模型和数据集上得到了显着的性能提高。

Mar, 2021

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

多模态视频字幕生成的端到端生成预训练

提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT)，通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标，以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。

Jan, 2022

MovieLLM：使用 AI 生成的影片增强长视频理解能力

MovieLLM 提出了一种新颖的框架，利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉，从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题，显著提高了多模态模型对复杂视频叙事的理解能力，克服了现有数据集的限制。

Mar, 2024

大规模语言模型在视频摘要预训练中的扩展

利用大型语言模型生成大规模的视频摘要数据集，提出了一种新的视频摘要模型，并呈现了一个由专业人员注释的高质量摘要的基准数据集，实验证明该方法在多个基准测试中达到了最新的最佳效果。

Apr, 2024

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020

VideoDirectorGPT: 基于 LLM 引导的一致多场景视频生成

我们提出了 VideoDirectorGPT，这是一个使用 LLMs 知识的生成一致多场景视频的新框架，并通过实验展示了其在布局和运动控制方面的显著改进，同时在单场景和多场景视频生成中实现了场景的视觉一致性。

Sep, 2023

基于 Transformer 的大规模预训练文字到视频生成技术 CogVideo

该研究提出 CogVideo，一个 9B 参数的 transformer 预训练模型，通过继承预训练的文本到图像模型 CogView2 进行训练，同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型，CogVideo 在机器和人类评估中的表现均远超公开的模型。

May, 2022