- LAVIB:一个大规模的视频插值基准
该论文介绍了一种用于视频逐帧插值(VFI)低级视频任务的大规模视频插值基准(LAVIB)。LAVIB 由网上获取的大量高分辨率视频组成,通过自动化流程与人工验证的最小要求。对于每个视频的运动幅度,亮度条件,帧清晰度和对比度进行度量。这些度量 - ZeroSmooth:无需训练的扩散器自适应高帧率视频生成
我们提出了一种对生成式视频扩散模型的训练无关的视频插值方法,通过将视频模型转换为自级联视频扩散模型并结合设计的隐藏状态校正模块,保持关键帧与插值帧之间的时间一致性。在多个受欢迎的视频模型上进行了广泛的评估,证明了该方法的有效性,特别是我们的 - CVPR使用扩散模型的视频插值
VIDIM 是一种视频插值的生成模型,通过级联扩散模型在低分辨率和高分辨率两个阶段生成目标视频,能够处理复杂、非线性和模糊的运动,生成高保真的结果。
- 通过神经 CDEs 利用视频建模中的归纳偏见
我们介绍了一种新颖的视频建模方法,利用控制微分方程(CDEs)来解决视频任务中的关键挑战,特别是视频插值和掩模传播。我们将 CDEs 应用于不同的分辨率,形成了一个连续时间的 U-Net 架构。与传统方法不同,我们的方法不需要显式光流学习, - CVPR基于多编码器网络的核插值结构参数减少
本研究提出了一种通过删除需要最多参数的层并将其替换成更小的编码器的方法来减少流场无关内核网络的参数数量的技术,以通过强制旋转来使每个编码器从输入图像中学习不同的特征,从而实现比原来的方法更好的性能。
- CVPRTimeReplayer: 发掘事件相机在视频插值中的潜力
本篇论文提出了 TimeReplayer 算法,利用 event camera 和 commodity camera 的视频数据,在无需大量高速训练数据的情况下通过无监督循环一致性学习方式,实现了视频插值和外推,具有超前的效果。
- 视频帧插值变换器
本论文提出了一种基于 Transformer 模型的视频插帧方法,利用自注意力机制实现了内容关注的多尺度帧间聚合,并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。
- PDWN: 金字塔可变形配准网络用于视频插帧
通过金字塔可变卷积结构和上下文增强网络,我们提出了一种称为 Pyramid Deformable Warping Network(PDWN)的轻量而有效的模型,可用于视频帧插值。该方法使用粗到细的连续细化来生成未知中间帧相对于已知帧的 DC - MM使用循环一致性自监督的光场视角合成
提出了一种自监督的光场视图合成框架,利用循环一致性约束和两个损失函数(循环损失和重建损失)来生成稠密的中间视图,并通过高质量自然视频数据的先验知识来减少标记的光场数据的需求,具有与有监督微调相当的性能,并优于现有技术。
- ECCVBMBC: 双向代价体积双向运动估计用于视频插帧
通过双边运动估计算法,结合双边成本体积,训练深度学习网络,得到准确的双边运动估计,进而生成中间帧,使用动态滤波器进行生成中间帧的图像处理技术,在基准数据集上表现优于现有的视频插帧算法。
- 二次视频插值
该研究提出了一种利用加速信息的二次视频插值方法,并发展了逆向流层用于流场估计和流细化技术,以更精准地实现视频插值,以优于现有的线性模型。
- 具有传递一致性损失的多尺度视频帧合成网络
本文提出了一种基于神经网络的视频插值方法,避免了传统基于光流的方法的不足,采用了跨层参数共享和跨域一致性损失等技术,该方法在实验中表现良好。
- CVPRSuper SloMo: 多个中间帧的高质量视频插帧估计
本研究提出了一种使用卷积神经网络对变长多帧视频插值进行建模,同时考虑运动解释和遮挡关系的方法,其中使用了 U-Net 架构计算输入时间序列帧之间的双向光流,并将其用于线性插值生成中间帧。我们的方法在多个数据集上进行实验,结果表明其表现优于现 - 利用基于学习的混合成像系统进行光场视频捕获
本文介绍了一种基于深度神经网络的光场视频插值系统,将三帧每秒的光场图像和标准的 30 帧每秒二维视频相结合,使用流估计和外观估计生成一个完整的光场视频,使得消费级光场摄影和诸如聚焦和视差视图的应用首次可用于视频。