VideoGen:一种参考引导的潜在扩散方法用于高清文本到视频生成
基于级联的视频扩散模型,Imagen Video 是一种文本有条件的视频生成系统,它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型,具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。
Oct, 2022
我们提出了一种高保真度的图像到视频生成方法,通过在预先训练的视频扩散模型上设计一个帧保留分支,名为 DreamVideo,来解决现有方法的局限性,该方法通过卷积层感知参考图像,并将特征与噪声潜在变量连接起来作为模型输入。同时,通过结合无分类器指导的双条件,可以通过提供不同的提示文本将单个图像导向不同动作的视频,使得视频的生成具备精确控制能力。综合实验表明,我们的方法在公开数据集上表现出色,无论是定量还是定性结果都优于现有方法,并且在 UCF101 数据集上相对于其他图像到视频模型具有较强的图像保留能力和高 FVD 得分。更多详细信息和全面结果将在文中进行详细阐述。
Dec, 2023
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023
提出了 I2VGen-XL 的级联方法,通过将两个因素解耦并利用静态图像作为关键指导,能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。
Nov, 2023
MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段,并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段,可以在 64 倍于最近的视频扩散模型(VDM)的速度下生成。
Nov, 2022
使用 I4VGen 框架,通过文本到图像到视频的多阶段过程,生成了更具视觉逼真度和文本准确性的视频,并能有效提升现有图像到视频扩散模型的整体质量。
Jun, 2024
通过使用网格扩散模型生成视频,我们可以通过固定数量的 GPU 内存生成高质量的视频,减小视频维度从而可以应用各种基于图像的方法,如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法,证明了我们的模型在真实世界中进行视频生成的适用性。
Mar, 2024