基于块运动矢量插值的视频快速语义分割

Oct, 2018

基于块运动矢量插值的视频快速语义分割

Inter-BMV: Interpolation with Block Motion Vectors for Fast Semantic Segmentation on Video

Samvit Jain, Joseph E. Gonzalez

TL;DR提出一种新的基于压缩视频中存在的块运动矢量的特征传播方法，从静态关键帧双向熔合特征到中间视频帧，以达到实时分割并保持较高的准确性。

Abstract

Models optimized for accuracy on single images are often prohibitively slow to run on each frame in a video. Recent work exploits the use of optical flow to warp image features forward from select keyframes, as a means to conserve computation on →

video feature propagation compressed video block motion vectors real-time segmentation

发现论文，激发创造

利用基于块运动的特征插值进行视频快速语义分割

本文提出了一种新的加速视频推理的方法 —— 使用基于块运动向量和特征传播技术实现的快速特征传播技术以及基于周围帧传播得到的特征的特征插值技术，能够在保持精度的前提下，将图像分割的速度从单帧基线的 30ms 提高到每秒 20 帧，实现了几乎 6 倍的改进。

Mar, 2018

BMBC: 双向代价体积双向运动估计用于视频插帧

通过双边运动估计算法，结合双边成本体积，训练深度学习网络，得到准确的双边运动估计，进而生成中间帧，使用动态滤波器进行生成中间帧的图像处理技术，在基准数据集上表现优于现有的视频插帧算法。

Jul, 2020

IBVC: 基于插值的 B 帧视频压缩

通过使用两个主要操作：视频帧插值和压缩，IBVC（插值驱动的 B 帧视频压缩）引入了一种无比特率的双向运动估计与补偿方法，避免了光流量化和额外的压缩失真，通过自适应选择具有插值多尺度依赖的有意义的上下文，减少重复比特率的使用，并通过提出条件的时空解码器消除位置错误和伪影，相较于相关最先进方法，IBVC 在 B 帧编码方面取得了显著的改进，同时与 H.266（VTM）的随机访问（RA）配置相比，我们的方法能节省比特率。

Sep, 2023

Super SloMo: 多个中间帧的高质量视频插帧估计

本研究提出了一种使用卷积神经网络对变长多帧视频插值进行建模，同时考虑运动解释和遮挡关系的方法，其中使用了 U-Net 架构计算输入时间序列帧之间的双向光流，并将其用于线性插值生成中间帧。我们的方法在多个数据集上进行实验，结果表明其表现优于现有方法。

Nov, 2017

运动感知视频帧插帧

该研究介绍了一种 Motion-Aware Video Frame Interpolation (MA-VFI) 网络，通过引入新颖的分层金字塔模块，直接估计相邻帧之间的中间光流，从而解决了现有方法在复杂场景（包括遮挡和不连续运动）中易产生图像模糊和伪影的问题，并有效降低了计算成本和复杂性。实验证明，该方法在多个数据集上超越了几种代表性的视频帧插值方法，既提高了效率又保持了良好的准确性。

Feb, 2024

MVFlow：具有运动矢量先验的压缩视频深度光流估计

使用运动矢量来提高压缩视频的光流估计的速度和准确性，构建了四个包含帧和运动矢量的压缩视频光流数据集，实验证明 MVFlow 相对现有模型减少 1.09 AEPE 或节省 52% 时间来达到类似准确性。

Aug, 2023

视频帧插值中的稀疏全局匹配与大动态

通过引入一个新的管道，本文提出了一种有效地整合全局级信息以缓解大运动问题的视频帧插值方法，在处理大运动场景时展现了最先进的性能。

Apr, 2024

高效视频帧插帧的多对多点渲染技术

本文提出了一种完全可微的 Many-to-Many（M2M）喷涂框架来高效地进行视频帧插值，该框架对于克服 motion based 视频帧插值的诸如遮挡和不连续性等挑战具有良好的稳健性和高效性，其每个源像素可以呈现多个目标像素，每个目标像素可以从更大的视觉上下文区域综合生成。

Apr, 2022

FILM: 大运动帧内插值

本文提出了一种针对大幅度中间动作的帧内插法算法，采用多尺度特征提取器的单一统一网络来进行训练，通过优化 Gram 矩阵损失实现了高质量的视频帧合成，竞争性地超越其他基于感知损失的方法，在多个基准测试中获得了更高的分数，并通过实验证明了该模型在难度较大的近似照片数据集上的有效性。

Feb, 2022

基于增强相关匹配的视频帧插值

该研究提出了一种基于 DNN 的新框架，名为 ECM-VFI，用于高分辨率视频帧插值，包括具有大规模运动和遮挡的 4K 视频数据。通过递归追踪最大相关位置来改善光流更新的准确性。采用前向曲面匹配可以通过排除遮挡区域周围的错误曲面特征来提高更新精度和提高细化和混合网络生成的任意时间点的中间帧的质量。实验结果显示，该方案在 4K 视频数据和低分辨率基准数据集方面比以前的作品表现更优，并且具有最少的模型参数。

Nov, 2021