ConditionVideo: 无需训练的条件引导文本到视频生成
ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成,使用三个模块实现外观协调、帧插值以及分层采样,能够在轻松几分钟之内生成高质量的短视频和长视频。
May, 2023
本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
May, 2023
通过将目标 RGB 像素分解成空间内容和时间运动两个不同的组成部分,我们提出了一种解决传统 RGB 像素空间方法中涉及建模动作一致性和视觉连贯性限制的新方法。通过显式建模时间运动并将其应用于起始图像,我们改进了生成视频的时间一致性,减少了空间冗余,突出了时间细节。大量实验证实了我们的方法相对于大多数最先进的方法在效果和效率上的卓越性能。
Nov, 2023
本文提出了一种使用文本作为上下文描述和动作结构(例如逐帧深度)作为具体指导的定制视频生成方法,涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明,该方法在时间一致性和与用户指导的忠实度方面表现优异,特别是在现有基线模型方面具有更好的性能。
Jun, 2023
本文提出了 ControlVideo,一种基于文本指导的视频编辑方法,通过结合文本到图像扩散模型和 ControlNet,优化视频的保真度和时间一致性以与给定文本对齐,并使用复杂设计策略在源视频的关键帧和时间注意力上进行微调,量化结果证明了 ControlVideo 相比其他竞争算法具有更高的保真度和一致性。
May, 2023
使用多模态生成框架,结合文本和图像训练双向变压器等多重输入来预测离散视频表示,同时提供改进的样本视频代币和文本增广,以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态,可以通过文本提示生成对应视频,并在四个数据集上取得了最新的生成结果。
Mar, 2022
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023
本研究提出了一种高效有效的方法,通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换,同时保持视频的时空一致性。我们通过使用可用的合成视频的光流信息,通过联合噪声优化有效地最小化了时空不一致性,实现对多个合成图像生成的平行化。通过在各种综合基准上进行的大量实验证明了我们的方法的有效性,并且我们的方法不需要对扩散模型进行任何培训或微调。 最后,我们证明了我们的方法在时空一致性和视觉质量方面均优于其他基线方法。
May, 2023
本文提出了使用 VicTR 方法对视频文本模型进行优化,在视觉信息外,加入文本信息,以提高活动识别性能,实验结果证明在多个基准测试中,该方法具有竞争性能,特别是在视频文本模型的监督、零样本和少样本情况下。
Apr, 2023