COMUNI:基于扩散的视频生成中常见和独特视频信号的分解
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
本文提出了一种名为VideoFusion的方法,通过分解噪声来处理视频数据,并采用两个联合学习的网络来匹配噪声分解,提高了视频生成的质量,并且还证明了分解噪声公式可以受益于预训练的图像扩散模型和文本条件下的视频生成。
Mar, 2023
提出了一种基于Motion Generation的视频生成方法,通过Latent Motion Generation和Video Reconstruction实现视频生成的可控性,采用了LaMD框架,包括Motion-decomposed Video Autoencoder和Diffusion-based Motion Generator两部分,实现了高质量、宽泛的运动生成,并在多个基准数据集上创造了新的最先进的性能。
Apr, 2023
使用参考引导的潜在扩散方法,VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023
提出一种新的运动感知视频生成 (MoVideo) 框架,从视频深度和光流两个方面考虑运动,并通过稀疏-时间扩散模型生成视频深度和光流,然后在潜在空间中生成视频,最后利用光流对不同帧进行对齐和细化,实现了文本到视频和图像到视频生成中最先进的结果。
Nov, 2023
通过将目标RGB像素分解成空间内容和时间运动两个不同的组成部分,我们提出了一种解决传统RGB像素空间方法中涉及建模动作一致性和视觉连贯性限制的新方法。通过显式建模时间运动并将其应用于起始图像,我们改进了生成视频的时间一致性,减少了空间冗余,突出了时间细节。大量实验证实了我们的方法相对于大多数最先进的方法在效果和效率上的卓越性能。
Nov, 2023
该研究提出了一种内容-动态潜在扩散模型 (CMD),它是针对视频生成的预训练图像扩散模型的一种高效扩展。CMD通过使用预训练图像扩散模型生成内容帧和训练轻量级扩散模型生成动态潜在表征,实现了更高质量的视频生成和降低的计算成本。
Mar, 2024
本研究解决了文本到视频生成过程中高计算成本的问题,提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略,优化了视频数据的处理,并保持临时一致性。实验结果表明,xGen-VideoSyn-1在生成720p视频时具备竞争力的性能,推动了文本到视频合成技术的发展。
Aug, 2024