通过多模态遮挡视频生成实现统一的文本引导视频完成

CVPRNov, 2022

通过多模态遮挡视频生成实现统一的文本引导视频完成

Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation

Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su...

TL;DR提供了一个新的任务，即文本引导下的视频完成（TVC），并提出了一种新的模型 —— 多模式蒙版视频生成（MMVG），通过文本输入生成高质量的视频完整图像，同时满足预测，倒带和填充的条件。

Abstract

Generating a video given the first several static frames is challenging as it anticipates reasonable future frames with temporal coherence. Besides video prediction, the ability to rewind from the last frame or infilling between the head and tail is also crucial, but they have rarely b

video completion text guidance multimodal masked video generation temporal coherence controllability

发现论文，激发创造

MTVG: 多文本视频生成与文本到视频模型

最近，视频生成引起了广泛关注并取得了显着成果。针对视频的特点，多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型，通过直接利用预训练的基于扩散的文本到视频转换模型进行生成，而无需额外的微调。为了生成连续的视频片段，不同提示生成的视觉一致性是必要的，具有多样的变化，如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演，用于在不同提示的视频之间重新初始化噪声潜变量，以保持视觉一致性并防止重复运动或内容。此外，我们提出了结构导向采样，以在单个视频剪辑的帧之间保持全局外观，其中我们通过对前一帧进行迭代潜变量更新。此外，我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例：[此链接](https://this_URL)

Dec, 2023

通过多模态调节进行视频综合的展示和说明

使用多模态生成框架，结合文本和图像训练双向变压器等多重输入来预测离散视频表示，同时提供改进的样本视频代币和文本增广，以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态，可以通过文本提示生成对应视频，并在四个数据集上取得了最新的生成结果。

Mar, 2022

利用多模态潜在主题进行视频字幕生成

该论文提出了一种基于 M&M TGM 的统一字幕生成框架，它利用从数据中无监督挖掘的多模态话题，并通过话题引导字幕解码器，通过并行任务主题预测来提高学习效果。该模型通过对 MSR-VTT 和 Youtube2Text 数据集进行广泛实验，证明了其在视频字幕生成方面的有效性，同时还具有更好的泛化能力。

Aug, 2017

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023

UniVG: 走向统一模态视频生成

提出了一种统一的多模态视频生成系统，能够处理基于文本和图像模态的多个视频生成任务，其中高自由度视频生成采用多条件交叉注意力对齐输入图像或文本的语义，低自由度视频生成引入偏置高斯噪声以更好地保留输入条件的内容，该方法在 MSR-VTT 公共学术基准中取得了最低的 Fréchet 视频距离（FVD），在人类评估中超过了当前的开源方法，并与当前的闭源方法 Gen2 持平。

Jan, 2024

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

高效二维时间视频定位的文本 - 视觉指示

本文研究了时空视频定位（TVG）的问题，提出了一种新的文本 - 视觉提示框架（TVP）来优化视频编码器和语言编码器，有效地加强交叉模态特征融合并提高了 TVG 的表现。

Mar, 2023

多模态视频字幕生成的端到端生成预训练

提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT)，通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标，以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。

Jan, 2022

BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成

通过使用 BiLL-VTG 框架，结合大型语言模型 (LLMs)、结构化场景图生成和描述性图像标题生成两种视觉工具，通过对特定视频事件进行多次推理步骤，实现对用户指令的文本回复，并通过 InsOVER 算法使用语言指令定位相应的视频事件，从而使 LLMs 能够与长视频进行交互，实验表明该框架优于预训练模型 Flamingo-80B，达到了最先进的性能。

Oct, 2023