通过特征传播实现长期视频帧插值
本文提出了一种基于优化的视频帧插值方法,该方法利用循环一致性自适应策略,结合现有预训练的插值模型中的运动估计模块,以适应测试时的未见过的运动,实现提升性能。经过各种基准测试的详尽实验表明,该方法可以提升两帧插值模型的性能,优于现有最先进的方法,即使它们使用额外的输入。
Jun, 2023
该研究介绍了一种 Motion-Aware Video Frame Interpolation (MA-VFI) 网络,通过引入新颖的分层金字塔模块,直接估计相邻帧之间的中间光流,从而解决了现有方法在复杂场景(包括遮挡和不连续运动)中易产生图像模糊和伪影的问题,并有效降低了计算成本和复杂性。实验证明,该方法在多个数据集上超越了几种代表性的视频帧插值方法,既提高了效率又保持了良好的准确性。
Feb, 2024
本文提出了三种技术来加强现有深度学习视频插帧 (VFI) 架构对不连续运动的鲁棒性。第一种是一种称为 figure-text mixing (FTM) 的新颖数据增强策略,无需额外数据集便可在训练时使模型学习不连续运动。第二种是一种简单而有效的模块,用于预测称为 discontinuity map (D-map) 的地图,密集地区分持续和不连续运动区域。最后,我们提出了损失函数,以对不连续运动区域进行监督。应用于各种先进的 VFI 网络,我们的方法显著提高了插帧质量,不仅适用于 GDM 数据集,还包括只包含连续运动的现有基准数据集,例如 Vimeo90K、UCF101 和 DAVIS。
Feb, 2022
提出了一种基于多输入单输出(MISO)的视频帧插值(VFI)方法,不依赖于运动矢量估计,能够有效地建模遮挡和非线性运动,并引入了一种新的运动感知损失,提高了视频帧的时空相关性。在 Vimeo90K、Middlebury 和 UCF101 等 VFI 基准测试中,MISO-VFI 方法与现有方法相比具有显著的性能差距,取得了最先进的结果。
Nov, 2023
通过深度学习中的 Spatio-Temporal Multi-Flow 结构实现视频帧插值,采用 3D CNN 模型处理不同的视觉场景,最终应用 ST-GAN 框架进行效果提升,该方法在 14 个最新最优模型中赢得最优结果,PSNR 达到 1.09dB。
Nov, 2021
本文首先呈现了一个数据集(X4K1000FPS),其中包含 1000 fps 的 4K 视频,在其中提出了一种极端的 VFI 网络,名为 XVFI-Net,可用于处理具有大运动的 4K 视频,并且基于递归多尺度共享结构,由两个级联模块组成,用于学习两个输入帧之间的双向光流,以及从目标到输入帧的双向光流学习。实验结果表明,我们的 XVFI-Net 在处理具有极端运动和复杂纹理的对象时可以成功捕获其关键信息,并展现出了极高的 VFI 性能。
Mar, 2021
提出了一种名为 WaveletVFI 的新型两阶段帧插值框架,通过轻量级运动感知网络估计中间光流,然后使用流对齐的上下文特征和稀疏卷积预测多尺度小波系数,以实现高效的目标帧重构,通过嵌入分类器学习动态阈值来控制计算,从而实现高达 40% 的计算减少,保持了相似的准确性。
Sep, 2023
针对视频帧插值中的模糊和幻影效果等问题,我们提出了一种名为 PerVFI(以感知为导向的视频帧插值)的新方法,采用了 Asymmetric Synergistic Blending 模块,通过从两侧提取特征进行协同融合,使用稀疏拟二进制掩膜有效减轻幻影和模糊伪影,并采用基于归一化流的生成模型和负对数似然损失来学习输出的条件分布,进一步提高生成的图像细节的清晰度。实验证明,PerVFI 相较于现有方法在感知质量上有显著改进。
Apr, 2024