适应动作的潜在扩散模型用于视频帧插值

Apr, 2024

适应动作的潜在扩散模型用于视频帧插值

Motion-aware Latent Diffusion Models for Video Frame Interpolation

Zhilin Huang, Yijie Yu, Ling Yang, Chujun Qin, Bing Zheng...

TL;DR通过结合运动估计和目标插帧帧之间的运动先验，提出了一种新的扩散框架（MADiff），该方法在生成视觉平滑和逼真结果方面显著优于现有方法。

Abstract

With the advancement of AIGC, video frame interpolation (VFI) has become a crucial component in existing video generation frameworks, attracting widespread research interest. For the VFI task, the motion estimation

video frame interpolation motion estimation diffusion framework latent diffusion models motion priors

发现论文，激发创造

运动感知视频帧插帧

该研究介绍了一种 Motion-Aware Video Frame Interpolation (MA-VFI) 网络，通过引入新颖的分层金字塔模块，直接估计相邻帧之间的中间光流，从而解决了现有方法在复杂场景（包括遮挡和不连续运动）中易产生图像模糊和伪影的问题，并有效降低了计算成本和复杂性。实验证明，该方法在多个数据集上超越了几种代表性的视频帧插值方法，既提高了效率又保持了良好的准确性。

Feb, 2024

连续布朗桥扩散下的帧内插值

通过使用连续的布朗桥扩散方法，我们提出了一种解决帧插值中图像随机生成而非确定性生成的问题的独特方法，实验证明该方法能够在视频帧插值中取得最先进的性能，并具有进一步改进的强大潜力。

May, 2024

通过动态自适应提升视频帧插值能力

本文提出了一种基于优化的视频帧插值方法，该方法利用循环一致性自适应策略，结合现有预训练的插值模型中的运动估计模块，以适应测试时的未见过的运动，实现提升性能。经过各种基准测试的详尽实验表明，该方法可以提升两帧插值模型的性能，优于现有最先进的方法，即使它们使用额外的输入。

Jun, 2023

视频帧插值的分离式运动建模

通过引入分解运动建模 (MoMo) 的扩散式方法进行视频帧插值，聚焦于中间运动建模，以增强视觉质量。我们提出了分解的两阶段训练过程，首先训练一个帧合成模型生成输入对及其光流的帧，然后采用我们的扩散 U-Net 架构的运动扩散模型在帧之间生成双向光流。与像素空间的生成建模方法相比，通过利用更简单的低频运动表示，我们的方法在感知性能度量上取得了优越的效果和较低的计算要求。在各个基准测试中，我们的方法超越了最先进的方法，展示了其在视频帧插值中的效力和高效性。

Jun, 2024

VIDM: 视频隐式扩散模型

该研究提出基于扩散模型的视频生成方法，通过隐式条件建模来模拟运动效果，并提出多种策略来优化生成视频的质量。实验证明，该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。

Dec, 2022

集成难度预估的动态视频帧插值

本文介绍了一个整合了难度评估和视频帧插值的管道，该管道首先利用先前评估模型对输入帧的插值难度级别进行量化，然后动态选择适当的插值模型生成插值结果，极大地提高了视频帧插值的准确度和效率。

Apr, 2023

MoVideo：使用扩散模型的运动感知视频生成

提出一种新的运动感知视频生成 (MoVideo) 框架，从视频深度和光流两个方面考虑运动，并通过稀疏 - 时间扩散模型生成视频深度和光流，然后在潜在空间中生成视频，最后利用光流对不同帧进行对齐和细化，实现了文本到视频和图像到视频生成中最先进的结果。

Nov, 2023

使用扩散模型的视频插值

VIDIM 是一种视频插值的生成模型，通过级联扩散模型在低分辨率和高分辨率两个阶段生成目标视频，能够处理复杂、非线性和模糊的运动，生成高保真的结果。

Apr, 2024

视频帧插帧中的不连续性探索

本文提出了三种技术来加强现有深度学习视频插帧 (VFI) 架构对不连续运动的鲁棒性。第一种是一种称为 figure-text mixing (FTM) 的新颖数据增强策略，无需额外数据集便可在训练时使模型学习不连续运动。第二种是一种简单而有效的模块，用于预测称为 discontinuity map (D-map) 的地图，密集地区分持续和不连续运动区域。最后，我们提出了损失函数，以对不连续运动区域进行监督。应用于各种先进的 VFI 网络，我们的方法显著提高了插帧质量，不仅适用于 GDM 数据集，还包括只包含连续运动的现有基准数据集，例如 Vimeo90K、UCF101 和 DAVIS。

Feb, 2022

LADDER：一种视频帧插值的高效框架

本研究介绍了一种有效的视频帧插值框架，通过采用深度卷积和创新的高清增强策略，实现了对视频帧处理效能和质量的平衡。

Apr, 2024