使用扩散模型的视频插值

CVPRApr, 2024

Video Interpolation with Diffusion Models

Siddhant Jain, Daniel Watson, Eric Tabellion, Aleksander Hołyński, Ben Poole...

TL;DRVIDIM 是一种视频插值的生成模型，通过级联扩散模型在低分辨率和高分辨率两个阶段生成目标视频，能够处理复杂、非线性和模糊的运动，生成高保真的结果。

Abstract

We present vidim, a generative model for video interpolation, which creates short videos given a start and end frame. In order to achieve

vidim generative model video interpolation diffusion models high-resolution

发现论文，激发创造

VIDM: 视频隐式扩散模型

该研究提出基于扩散模型的视频生成方法，通过隐式条件建模来模拟运动效果，并提出多种策略来优化生成视频的质量。实验证明，该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。

Dec, 2022

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video 是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。

Oct, 2022

适应动作的潜在扩散模型用于视频帧插值

通过结合运动估计和目标插帧帧之间的运动先验，提出了一种新的扩散框架（MADiff），该方法在生成视觉平滑和逼真结果方面显著优于现有方法。

Apr, 2024

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

视频预测与填充的扩散模型

本文提出了一种名为 RaMViD 的随机掩码视频扩散模型，利用 3D 卷积将图像扩散模型扩展到视频领域，并引入了一种新的训练条件技术，通过改变所用的掩码，能够实现视频预测、填充和上采样，通过评估 RaMViD 在两个视频预测数据集上的表现，本文证明了该模型达到了最新水平，并提供了高分辨率视频的数据。

Jun, 2022

预训练扩散模型的极致视频压缩

使用扩散模型的预测能力，在解码器中将多个神经压缩帧转换为连续的视频帧，以实现极端视频压缩，同时考虑感知质量指标，从低比特率下的位每像素（bpp）为 0.02 开始实现视觉上令人满意的重构，结果表明该方案比 H.264 和 H.265 等标准编解码器在低比特率领域具有更好的效果。

Feb, 2024

用扩散模型在图像之间进行插值

通过使用潜在扩散模型进行无监督插值，我们在降噪、文本嵌入和主题姿势上实现了一致而令人信服的图像插值，而传统的数量指标如 FID 则无法准确度量插值质量。

Jul, 2023

GD-VDM: 基于生成深度的扩散视频生成方法

本文提出了一种新的扩散模型 GD-VDM 用于视频生成，通过在生成深度视频和扩散 Vid2Vid 模型之间的两个阶段进行，能够生成更加多样化、复杂的场景。

Jun, 2023