Dec, 2023

MTVG: 多文本视频生成与文本到视频模型

TL;DR最近,视频生成引起了广泛关注并取得了显着成果。针对视频的特点,多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型,通过直接利用预训练的基于扩散的文本到视频转换模型进行生成,而无需额外的微调。为了生成连续的视频片段,不同提示生成的视觉一致性是必要的,具有多样的变化,如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演,用于在不同提示的视频之间重新初始化噪声潜变量,以保持视觉一致性并防止重复运动或内容。此外,我们提出了结构导向采样,以在单个视频剪辑的帧之间保持全局外观,其中我们通过对前一帧进行迭代潜变量更新。此外,我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例:[此链接](https://this_URL)