具有传递一致性损失的多尺度视频帧合成网络
本文提出了一种基于多尺度生成对抗网络的视频插帧算法(FIGAN),并通过构建粗到细的多尺度残差估计模块以及联合多级感知损失函数的方法,在算法效率和插帧视频的视觉质量两方面取得了较好的结果。
Nov, 2017
本文提出了一种针对大幅度中间动作的帧内插法算法,采用多尺度特征提取器的单一统一网络来进行训练,通过优化 Gram 矩阵损失实现了高质量的视频帧合成,竞争性地超越其他基于感知损失的方法,在多个基准测试中获得了更高的分数,并通过实验证明了该模型在难度较大的近似照片数据集上的有效性。
Feb, 2022
本文提出了一种基于循环一致性和伪监督的无监督技术,用于实现从低帧率视频直接合成高帧率视频。实验证明,该技术可以在不使用任何额外数据的情况下,显著提高预先训练模型在新目标域上的性能,从而大幅增加 PSNR 值。
Jun, 2019
本研究提出了一种使用卷积神经网络对变长多帧视频插值进行建模,同时考虑运动解释和遮挡关系的方法,其中使用了 U-Net 架构计算输入时间序列帧之间的双向光流,并将其用于线性插值生成中间帧。我们的方法在多个数据集上进行实验,结果表明其表现优于现有方法。
Nov, 2017
本文利用深度递归神经网络,结合短期、长期以及感知上的损失,为视频处理提供了一种基于帧的将原始视频和处理后的视频作为输入,生成时间上连贯的视频的方法,实现了对多种需求的处理,且无需光流计算,具有实时性能。
Aug, 2018
本文提出一种创新的方法,将 Transformer 编码器和卷积特征相结合,从而减少了近 50% 的内存负担,在推理时间上比现有的基于 Transformer 的插值方法运行速度提高了近四倍,并引入双编码器架构来结合局部相关的卷积和远程相关的 Transformer。在复杂运动方面进行了定量评估,展示了所提出方法的鲁棒性,与最先进的插值网络相比,取得了竞争性能。
Jul, 2023
该研究提出了一种基于 DNN 的新框架,名为 ECM-VFI,用于高分辨率视频帧插值,包括具有大规模运动和遮挡的 4K 视频数据。通过递归追踪最大相关位置来改善光流更新的准确性。采用前向曲面匹配可以通过排除遮挡区域周围的错误曲面特征来提高更新精度和提高细化和混合网络生成的任意时间点的中间帧的质量。实验结果显示,该方案在 4K 视频数据和低分辨率基准数据集方面比以前的作品表现更优,并且具有最少的模型参数。
Nov, 2021
我们提出了一种视频帧插值流 Transformer 的方法,通过将运动动态从光流中引入自注意机制,使得我们的框架适用于插值具有大运动的帧,同时保持相对较低的复杂性,并通过构建多尺度架构来提高整体性能,实验证明该方法能够生成比现有方法更好视觉质量的插值帧。
Jul, 2023
本研究提出一种真正的多帧插值器,它利用时间域的金字塔式网络一次性完成多帧插值任务,并使用放松的损失函数流估计过程和先进的基于三次样条的运动模型以提高插值精度,结果表明在 Adobe240 数据集上,所提出的方法生成视觉上令人满意的、时间上一致的帧,比当前最佳的即席方法在 PSNR 上提高 1.57db,模型体积减小 8 倍,速度快了 7.7 倍,并且可以轻松扩展以插入大量新的帧.
Jul, 2020
本论文提出了一种基于 Transformer 模型的视频插帧方法,利用自注意力机制实现了内容关注的多尺度帧间聚合,并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。
Nov, 2021