通过结合运动估计和目标插帧帧之间的运动先验,提出了一种新的扩散框架(MADiff),该方法在生成视觉平滑和逼真结果方面显著优于现有方法。
Apr, 2024
通过引入分解运动建模 (MoMo) 的扩散式方法进行视频帧插值,聚焦于中间运动建模,以增强视觉质量。我们提出了分解的两阶段训练过程,首先训练一个帧合成模型生成输入对及其光流的帧,然后采用我们的扩散 U-Net 架构的运动扩散模型在帧之间生成双向光流。与像素空间的生成建模方法相比,通过利用更简单的低频运动表示,我们的方法在感知性能度量上取得了优越的效果和较低的计算要求。在各个基准测试中,我们的方法超越了最先进的方法,展示了其在视频帧插值中的效力和高效性。
Jun, 2024
本文提出了三种技术来加强现有深度学习视频插帧 (VFI) 架构对不连续运动的鲁棒性。第一种是一种称为 figure-text mixing (FTM) 的新颖数据增强策略,无需额外数据集便可在训练时使模型学习不连续运动。第二种是一种简单而有效的模块,用于预测称为 discontinuity map (D-map) 的地图,密集地区分持续和不连续运动区域。最后,我们提出了损失函数,以对不连续运动区域进行监督。应用于各种先进的 VFI 网络,我们的方法显著提高了插帧质量,不仅适用于 GDM 数据集,还包括只包含连续运动的现有基准数据集,例如 Vimeo90K、UCF101 和 DAVIS。
Feb, 2022
本文提出了一种基于优化的视频帧插值方法,该方法利用循环一致性自适应策略,结合现有预训练的插值模型中的运动估计模块,以适应测试时的未见过的运动,实现提升性能。经过各种基准测试的详尽实验表明,该方法可以提升两帧插值模型的性能,优于现有最先进的方法,即使它们使用额外的输入。
Jun, 2023
本文提出了一种自回归、端到端优化的视频扩散模型,受到神经视频压缩技术的启发,可用于生成高质量的视频,并提出了可扩展的连续排名概率得分(CRPS)方法,以评估视频的概率预测能力,该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。
Mar, 2022
本研究介绍了一种有效的视频帧插值框架,通过采用深度卷积和创新的高清增强策略,实现了对视频帧处理效能和质量的平衡。
本文介绍了一个整合了难度评估和视频帧插值的管道,该管道首先利用先前评估模型对输入帧的插值难度级别进行量化,然后动态选择适当的插值模型生成插值结果,极大地提高了视频帧插值的准确度和效率。
Apr, 2023
该研究提出基于扩散模型的视频生成方法,通过隐式条件建模来模拟运动效果,并提出多种策略来优化生成视频的质量。实验证明,该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。
Dec, 2022
我们提出了一种基于预训练扩散模型的新推理技术,用于文本条件视频生成。我们的方法名为 FIFO-Diffusion,能够概念性地生成无需训练的无限长视频。通过迭代地进行对角去噪处理,我们同时处理一个队列中噪声逐渐增加的一系列连续帧;我们的方法在队列头部出队完全去噪的帧,并在队列尾部入队一个新的随机噪声帧。但是,对角去噪处理是一把双刃剑,因为靠近尾部的帧可以通过向前引用来利用更干净的帧,但这种策略会引起训练和推理之间的差异。因此,我们引入了潜在分区来减小训练和推理之间的差距,并引入了前瞻去噪来利用向前引用的好处。我们已经在现有的文本到视频生成基准上展示了该方法的有希望的结果和有效性。
May, 2024
本研究提出了一种基于传播网络(PNet)的新框架,旨在有效解决视频帧插值(VFI)中存在的大间隔问题,将一侧的输入传播到可靠时间帧,然后使用标准方法进行插值。此方法在多项基准测试数据集上的实验结果表明,在长期 VFI 方面,其比现有的最先进方法更加有效。