视频帧插值的分离式运动建模

Jun, 2024

Disentangled Motion Modeling for Video Frame Interpolation

Jaihyun Lew, Jooyoung Choi, Chaehun Shin, Dahuin Jung, Sungroh Yoon

TL;DR通过引入分解运动建模 (MoMo) 的扩散式方法进行视频帧插值，聚焦于中间运动建模，以增强视觉质量。我们提出了分解的两阶段训练过程，首先训练一个帧合成模型生成输入对及其光流的帧，然后采用我们的扩散 U-Net 架构的运动扩散模型在帧之间生成双向光流。与像素空间的生成建模方法相比，通过利用更简单的低频运动表示，我们的方法在感知性能度量上取得了优越的效果和较低的计算要求。在各个基准测试中，我们的方法超越了最先进的方法，展示了其在视频帧插值中的效力和高效性。

Abstract

video frame interpolation (VFI) aims to synthesize intermediate frames in between existing frames to enhance visual smoothness and quality. Beyond the conventional methods based on the reconstruction loss, recent works employ the high quality generative models for →

video frame interpolation disentangled motion modeling perceptual quality diffusion-based approach motion diffusion model

发现论文，激发创造

运动感知视频帧插帧

该研究介绍了一种 Motion-Aware Video Frame Interpolation (MA-VFI) 网络，通过引入新颖的分层金字塔模块，直接估计相邻帧之间的中间光流，从而解决了现有方法在复杂场景（包括遮挡和不连续运动）中易产生图像模糊和伪影的问题，并有效降低了计算成本和复杂性。实验证明，该方法在多个数据集上超越了几种代表性的视频帧插值方法，既提高了效率又保持了良好的准确性。

Feb, 2024

视频帧插帧中的不连续性探索

本文提出了三种技术来加强现有深度学习视频插帧 (VFI) 架构对不连续运动的鲁棒性。第一种是一种称为 figure-text mixing (FTM) 的新颖数据增强策略，无需额外数据集便可在训练时使模型学习不连续运动。第二种是一种简单而有效的模块，用于预测称为 discontinuity map (D-map) 的地图，密集地区分持续和不连续运动区域。最后，我们提出了损失函数，以对不连续运动区域进行监督。应用于各种先进的 VFI 网络，我们的方法显著提高了插帧质量，不仅适用于 GDM 数据集，还包括只包含连续运动的现有基准数据集，例如 Vimeo90K、UCF101 和 DAVIS。

Feb, 2022

适应动作的潜在扩散模型用于视频帧插值

通过结合运动估计和目标插帧帧之间的运动先验，提出了一种新的扩散框架（MADiff），该方法在生成视觉平滑和逼真结果方面显著优于现有方法。

Apr, 2024

通过动态自适应提升视频帧插值能力

本文提出了一种基于优化的视频帧插值方法，该方法利用循环一致性自适应策略，结合现有预训练的插值模型中的运动估计模块，以适应测试时的未见过的运动，实现提升性能。经过各种基准测试的详尽实验表明，该方法可以提升两帧插值模型的性能，优于现有最先进的方法，即使它们使用额外的输入。

Jun, 2023

无光流视频帧插值的多进 - 单出网络

提出了一种基于多输入单输出（MISO）的视频帧插值（VFI）方法，不依赖于运动矢量估计，能够有效地建模遮挡和非线性运动，并引入了一种新的运动感知损失，提高了视频帧的时空相关性。在 Vimeo90K、Middlebury 和 UCF101 等 VFI 基准测试中，MISO-VFI 方法与现有方法相比具有显著的性能差距，取得了最先进的结果。

Nov, 2023

MoVideo：使用扩散模型的运动感知视频生成

提出一种新的运动感知视频生成 (MoVideo) 框架，从视频深度和光流两个方面考虑运动，并通过稀疏 - 时间扩散模型生成视频深度和光流，然后在潜在空间中生成视频，最后利用光流对不同帧进行对齐和细化，实现了文本到视频和图像到视频生成中最先进的结果。

Nov, 2023

使用 Transformer 的视频帧插值

使用 Transformer 和跨尺度窗口关注机制的视频帧插值方法，在多个基准测试上达到了新的最先进结果。

May, 2022

LADDER：一种视频帧插值的高效框架

本研究介绍了一种有效的视频帧插值框架，通过采用深度卷积和创新的高清增强策略，实现了对视频帧处理效能和质量的平衡。

Apr, 2024

基于感知的视频帧插值方法：非对称混合

针对视频帧插值中的模糊和幻影效果等问题，我们提出了一种名为 PerVFI（以感知为导向的视频帧插值）的新方法，采用了 Asymmetric Synergistic Blending 模块，通过从两侧提取特征进行协同融合，使用稀疏拟二进制掩膜有效减轻幻影和模糊伪影，并采用基于归一化流的生成模型和负对数似然损失来学习输出的条件分布，进一步提高生成的图像细节的清晰度。实验证明，PerVFI 相较于现有方法在感知质量上有显著改进。

Apr, 2024

ST-MFNet：基于时空多流网络的帧插值

通过深度学习中的 Spatio-Temporal Multi-Flow 结构实现视频帧插值，采用 3D CNN 模型处理不同的视觉场景，最终应用 ST-GAN 框架进行效果提升，该方法在 14 个最新最优模型中赢得最优结果，PSNR 达到 1.09dB。

Nov, 2021