使用密集查询双边相关性的视频帧插值
该研究介绍了一种 Motion-Aware Video Frame Interpolation (MA-VFI) 网络,通过引入新颖的分层金字塔模块,直接估计相邻帧之间的中间光流,从而解决了现有方法在复杂场景(包括遮挡和不连续运动)中易产生图像模糊和伪影的问题,并有效降低了计算成本和复杂性。实验证明,该方法在多个数据集上超越了几种代表性的视频帧插值方法,既提高了效率又保持了良好的准确性。
Feb, 2024
本文提出了一种增强型二次视频插值(EQVI)模型,该模型采用修正后的二次流场预测(RQFP)将运动估计得到的流信息更精确地编码,结合基于像素级融合的图像处理和在高维特征空间中使用参数生成的残差上下文合成网络(RCSN)来处理更加复杂的场景和动态模式,同时设计了一个多尺度融合网络(MS-Fusion)来提升性能。该模型在 AIM2020 视频时域超分辨率挑战赛中获得了第一名。
Sep, 2020
本文提出了一种基于优化的视频帧插值方法,该方法利用循环一致性自适应策略,结合现有预训练的插值模型中的运动估计模块,以适应测试时的未见过的运动,实现提升性能。经过各种基准测试的详尽实验表明,该方法可以提升两帧插值模型的性能,优于现有最先进的方法,即使它们使用额外的输入。
Jun, 2023
提出了一种名为 WaveletVFI 的新型两阶段帧插值框架,通过轻量级运动感知网络估计中间光流,然后使用流对齐的上下文特征和稀疏卷积预测多尺度小波系数,以实现高效的目标帧重构,通过嵌入分类器学习动态阈值来控制计算,从而实现高达 40% 的计算减少,保持了相似的准确性。
Sep, 2023
通过引入分解运动建模 (MoMo) 的扩散式方法进行视频帧插值,聚焦于中间运动建模,以增强视觉质量。我们提出了分解的两阶段训练过程,首先训练一个帧合成模型生成输入对及其光流的帧,然后采用我们的扩散 U-Net 架构的运动扩散模型在帧之间生成双向光流。与像素空间的生成建模方法相比,通过利用更简单的低频运动表示,我们的方法在感知性能度量上取得了优越的效果和较低的计算要求。在各个基准测试中,我们的方法超越了最先进的方法,展示了其在视频帧插值中的效力和高效性。
Jun, 2024
该研究提出了一种基于 DNN 的新框架,名为 ECM-VFI,用于高分辨率视频帧插值,包括具有大规模运动和遮挡的 4K 视频数据。通过递归追踪最大相关位置来改善光流更新的准确性。采用前向曲面匹配可以通过排除遮挡区域周围的错误曲面特征来提高更新精度和提高细化和混合网络生成的任意时间点的中间帧的质量。实验结果显示,该方案在 4K 视频数据和低分辨率基准数据集方面比以前的作品表现更优,并且具有最少的模型参数。
Nov, 2021
针对视频帧插值中的模糊和幻影效果等问题,我们提出了一种名为 PerVFI(以感知为导向的视频帧插值)的新方法,采用了 Asymmetric Synergistic Blending 模块,通过从两侧提取特征进行协同融合,使用稀疏拟二进制掩膜有效减轻幻影和模糊伪影,并采用基于归一化流的生成模型和负对数似然损失来学习输出的条件分布,进一步提高生成的图像细节的清晰度。实验证明,PerVFI 相较于现有方法在感知质量上有显著改进。
Apr, 2024
本研究提出了一种使用可变形卷积的视频帧插值方法,使用粗到细的 3D CNN 增强多流预测,实验结果表明,该方法的干涉性能优于其他现有算法,最高可以获得 0.19dB 的 PSNR 增益。
Feb, 2022
本研究提出了一种基于传播网络(PNet)的新框架,旨在有效解决视频帧插值(VFI)中存在的大间隔问题,将一侧的输入传播到可靠时间帧,然后使用标准方法进行插值。此方法在多项基准测试数据集上的实验结果表明,在长期 VFI 方面,其比现有的最先进方法更加有效。
Mar, 2022