本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
基于级联的视频扩散模型,Imagen Video是一种文本有条件的视频生成系统,它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型,具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画以及3D对象理解。
Oct, 2022
介绍了一种使用条件扩散模型的视频合成方法(MCDiff),可以通过一组笔画控制视频的内容和动态,达到了良好的视觉效果。
Apr, 2023
本文提出了一种可控的文本到视频模型,名为Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
May, 2023
本研究提出了一种高效有效的方法,通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换,同时保持视频的时空一致性。我们通过使用可用的合成视频的光流信息,通过联合噪声优化有效地最小化了时空不一致性,实现对多个合成图像生成的平行化。通过在各种综合基准上进行的大量实验证明了我们的方法的有效性,并且我们的方法不需要对扩散模型进行任何培训或微调。 最后,我们证明了我们的方法在时空一致性和视觉质量方面均优于其他基线方法。
使用参考引导的潜在扩散方法,VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023
提出一种新的运动感知视频生成 (MoVideo) 框架,从视频深度和光流两个方面考虑运动,并通过稀疏-时间扩散模型生成视频深度和光流,然后在潜在空间中生成视频,最后利用光流对不同帧进行对齐和细化,实现了文本到视频和图像到视频生成中最先进的结果。
Nov, 2023
Motion-I2V 是一个用于生成一致且可控的图像到视频的新型框架,通过显式的运动建模将图像到视频分解为两个阶段。
Jan, 2024
该研究提出了一种内容-动态潜在扩散模型 (CMD),它是针对视频生成的预训练图像扩散模型的一种高效扩展。CMD通过使用预训练图像扩散模型生成内容帧和训练轻量级扩散模型生成动态潜在表征,实现了更高质量的视频生成和降低的计算成本。
Mar, 2024
本研究针对仅依赖文本指导的视频生成的局限性,提出了一种名为 EasyControl 的通用框架,该框架能够通过条件适配器传递和注入条件特征,从而以单一条件图控制视频生成。实验结果表明,该方法在多个验证数据集上的评估指标显著优于现有的先进方法,尤其在草图转视频生成任务中展现出卓越的性能。
Aug, 2024