该研究提出基于扩散模型的视频生成方法,通过隐式条件建模来模拟运动效果,并提出多种策略来优化生成视频的质量。实验证明,该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。
Dec, 2022
基于级联的视频扩散模型,Imagen Video 是一种文本有条件的视频生成系统,它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型,具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。
Oct, 2022
通过结合运动估计和目标插帧帧之间的运动先验,提出了一种新的扩散框架(MADiff),该方法在生成视觉平滑和逼真结果方面显著优于现有方法。
Apr, 2024
我们提出了 Video Instruction Diffusion(VIDiff),这是一个统一的基础模型,专为广泛的视频任务设计,包括理解任务(如语言引导的视频对象分割)和生成任务(视频编辑和增强)。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果,并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。
Nov, 2023
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
本文提出了一种名为 RaMViD 的随机掩码视频扩散模型,利用 3D 卷积将图像扩散模型扩展到视频领域,并引入了一种新的训练条件技术,通过改变所用的掩码,能够实现视频预测、填充和上采样,通过评估 RaMViD 在两个视频预测数据集上的表现,本文证明了该模型达到了最新水平,并提供了高分辨率视频的数据。
Jun, 2022
使用扩散模型的预测能力,在解码器中将多个神经压缩帧转换为连续的视频帧,以实现极端视频压缩,同时考虑感知质量指标,从低比特率下的位每像素(bpp)为 0.02 开始实现视觉上令人满意的重构,结果表明该方案比 H.264 和 H.265 等标准编解码器在低比特率领域具有更好的效果。
Feb, 2024
通过使用潜在扩散模型进行无监督插值,我们在降噪、文本嵌入和主题姿势上实现了一致而令人信服的图像插值,而传统的数量指标如 FID 则无法准确度量插值质量。
Jul, 2023
本文提出了一种新的扩散模型 GD-VDM 用于视频生成,通过在生成深度视频和扩散 Vid2Vid 模型之间的两个阶段进行,能够生成更加多样化、复杂的场景。
Jun, 2023