- 视频帧插值的分离式运动建模
通过引入分解运动建模 (MoMo) 的扩散式方法进行视频帧插值,聚焦于中间运动建模,以增强视觉质量。我们提出了分解的两阶段训练过程,首先训练一个帧合成模型生成输入对及其光流的帧,然后采用我们的扩散 U-Net 架构的运动扩散模型在帧之间生成 - 基于 Swin-Transformer 的极化视频帧插值
该研究提出了一种基于 Swin-Transformer 的多阶段多尺度网络,称为 Swin-VFI,引入了一种定制的损失函数以促进网络对极化变化的理解。实验结果表明,该方法在所有任务中具有优越的重建精度。
- LAVIB:一个大规模的视频插值基准
该论文介绍了一种用于视频逐帧插值(VFI)低级视频任务的大规模视频插值基准(LAVIB)。LAVIB 由网上获取的大量高分辨率视频组成,通过自动化流程与人工验证的最小要求。对于每个视频的运动幅度,亮度条件,帧清晰度和对比度进行度量。这些度量 - 从模拟到真实:基于事件的通用低光帧插值与每场景优化
提出一种针对低光照条件下事件相机的视频帧插值的优化策略,利用场景的内部统计信息来处理低光照条件下退化的事件数据,提高对不同光照和相机设置的泛化能力。
- 连续布朗桥扩散下的帧内插值
通过使用连续的布朗桥扩散方法,我们提出了一种解决帧插值中图像随机生成而非确定性生成的问题的独特方法,实验证明该方法能够在视频帧插值中取得最先进的性能,并具有进一步改进的强大潜力。
- 基于事件的视频帧插值与边缘引导的运动细化
利用事件相机和边缘特征来提高视频帧插值的质量。
- 适应动作的潜在扩散模型用于视频帧插值
通过结合运动估计和目标插帧帧之间的运动先验,提出了一种新的扩散框架(MADiff),该方法在生成视觉平滑和逼真结果方面显著优于现有方法。
- LADDER:一种视频帧插值的高效框架
本研究介绍了一种有效的视频帧插值框架,通过采用深度卷积和创新的高清增强策略,实现了对视频帧处理效能和质量的平衡。
- CVPR视频帧插值中的稀疏全局匹配与大动态
通过引入一个新的管道,本文提出了一种有效地整合全局级信息以缓解大运动问题的视频帧插值方法,在处理大运动场景时展现了最先进的性能。
- CVPR基于感知的视频帧插值方法:非对称混合
针对视频帧插值中的模糊和幻影效果等问题,我们提出了一种名为 PerVFI(以感知为导向的视频帧插值)的新方法,采用了 Asymmetric Synergistic Blending 模块,通过从两侧提取特征进行协同融合,使用稀疏拟二进制掩膜 - 视频帧插值基准测试
我们提出了一个基准测试,通过利用计算它们的提交网站建立一致的误差度量,通过分析插值质量与各种像素属性(如运动幅度)的关系来提供见解,并通过利用合成数据坚持线性假设来设计精心设计的测试集,并以一致的方式评估计算效率。
- 运动感知视频帧插帧
该研究介绍了一种 Motion-Aware Video Frame Interpolation (MA-VFI) 网络,通过引入新颖的分层金字塔模块,直接估计相邻帧之间的中间光流,从而解决了现有方法在复杂场景(包括遮挡和不连续运动)中易产生 - 来自 SAM 的区域可区分先验的视频帧插值
该研究介绍了一种利用开放世界分割模型来提高视频帧插值中运动估计准确性的新方法,通过将区域可区别先验表示为空间变化的高斯混合,设计了可以与现有运动估计方法集成的分层区域感知特征融合模块,实验证明该方法能够在各种场景下显著提升视频帧插值性能。
- 更清晰的帧画面,随时可行:解决视频帧插值中的速度歧义
现有的视频帧插值方法通过时间索引盲目预测每个对象在特定时刻的位置,但很难预测对象的精确运动;为了解决这个问题,本文提出了一种名为 “距离索引” 的新方法,通过提供对象在起始和结束帧之间行进的距离作为网络的明确提示,将复杂的时间到位置映射问题 - 适应尺度的特征聚合用于高效时空视频超分辨率
通过选择适当的处理尺度,提出了一种自适应选择子网络的 SAFA 网络,用于进行时空视频超分辨率(STVSR)任务,取得了较好的性能。
- LOVECon:基于文本的无需训练的长视频编辑与 ControlNet 控制
本研究旨在建立一个简单而有效的基于训练无关扩散模型的长视频编辑基线,通过分割长视频并采用新颖的跨窗口注意机制,以确保全局风格的一致性和窗口之间的平滑性。通过 DDIM 反演从源视频中提取信息,并将结果整合到生成的潜在状态中,同时结合视频帧插 - IBVC: 基于插值的 B 帧视频压缩
通过使用两个主要操作:视频帧插值和压缩,IBVC(插值驱动的 B 帧视频压缩)引入了一种无比特率的双向运动估计与补偿方法,避免了光流量化和额外的压缩失真,通过自适应选择具有插值多尺度依赖的有意义的上下文,减少重复比特率的使用,并通过提出条件 - 小波域动态帧插值
提出了一种名为 WaveletVFI 的新型两阶段帧插值框架,通过轻量级运动感知网络估计中间光流,然后使用流对齐的上下文特征和稀疏卷积预测多尺度小波系数,以实现高效的目标帧重构,通过嵌入分类器学习动态阈值来控制计算,从而实现高达 40% 的 - 基于不确定性引导的空间修剪架构用于高效帧插值
本文提出了一种基于不确定性引导的空间剪枝(UGSP)架构,通过利用不确定性生成的遮罩标签来正确定位易区域,同时采用自对比训练策略提高 UGSP 性能。实验证明,与未剪枝基准相比,UGSP 在 Vimeo90K/UCF101/MiddleBu - MM使用流变换器进行视频帧插值
我们提出了一种视频帧插值流 Transformer 的方法,通过将运动动态从光流中引入自注意机制,使得我们的框架适用于插值具有大运动的帧,同时保持相对较低的复杂性,并通过构建多尺度架构来提高整体性能,实验证明该方法能够生成比现有方法更好视觉