AMT: 高效帧插值的全对多域变换

CVPRApr, 2023

AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation

Zhen Li, Zuo-Liang Zhu, Ling-Hao Han, Qibin Hou, Chun-Le Guo...

TL;DR本文提出了全局双向卷积网络 AMT，可对视频帧进行插值。该模型在各项指标上表现出色，达到了 Transformer 模型相同级别的准确性和效率。

Abstract

We present all-pairs multi-field transforms (AMT), a new network architecture for video frame interpolation. It is based on two essential designs. First, we build →

video frame interpolation all-pairs multi-field transforms bidirectional correlation volumes fine-grained flow fields convolution-based model

发现论文，激发创造

RAFT: 光流的循环全对场变换

RAFT 是一个新的深度网络结构，用于光流问题，它提取每个像素的特征，为所有像素建立多尺度 4D 相关性体，并通过一个循环单元，通过对相关性体的查找，迭代更新光流场。RAFT 在 KITTI 和 Sintel 数据集上实现了最新颖的性能，并且具有高效率的推断时间、训练速度和参数计数。

Mar, 2020

用于视频帧插值的非对称双边运动估计

本研究使用基于不对称双边运动估计的视频帧插值算法，结合预测对称双边运动场和不对称双边运动场技术，提出了一种采用本地和全局信息生成动态滤镜和剩余帧的新型合成网络。实验结果表明，所提出的算法在各种数据集上具有出色的性能。

Aug, 2021

高效视频帧插帧的多对多点渲染技术

本文提出了一种完全可微的 Many-to-Many（M2M）喷涂框架来高效地进行视频帧插值，该框架对于克服 motion based 视频帧插值的诸如遮挡和不连续性等挑战具有良好的稳健性和高效性，其每个源像素可以呈现多个目标像素，每个目标像素可以从更大的视觉上下文区域综合生成。

Apr, 2022

聚合本地流描述符的近在线多目标跟踪

论文提出了一种面向多目标跟踪的测量相似度的方法，把问题表述为一种数据关联问题，并使用多个线索和长期轨迹规范来提高算法的鲁棒性和准确性，并且实验表明该方法在 KITTI 和 MOT 数据集上比现有算法的平均跟踪准确性提高了约 10%。

Apr, 2015

多对多光滑投影和空间选择性细化的视频帧插值

我们提出了一个全可微的 Many-to-Many（M2M）splatting 框架，通过估计多个双向流来直接向前扭曲像素到所需的时间步骤，实现了多对多的覆盖像素的效果，然后引入了一个灵活的空间选择性优化（SSR）模块来提高插值精度，从而提高了视频插值的效率和质量。

Oct, 2023

CoT-AMFlow: 自适应调制网络与合作教学策略用于无监督光流估计

本文提出了一种基于适应性调制网络的自监督光流估计方法 CoT-AMFlow，采用流调制模块和代价体积调制模块去除噪点，同时采用师生共同训练策略，实时性能表现优于其他最先进的自监督方法。

Nov, 2020

BiFormer: 通过双向 Transformer 学习双边运动估计用于 4K 视频帧插值

本文提出了一种基于双向变形器（BiFormer）的新型 4K 视频帧插值器，它包含三个步骤：全局运动估计，局部运动细化和帧合成。通过使用双向变形器和基于块的代价卷积技术，该算法实现了出色的插值性能。

Apr, 2023

RAFT-Stereo：用于立体匹配的多层循环场变换

我们介绍了一种新的基于光流网络 RAFT 的校正立体的深度架构 RAFT-Stereo。我们引入了多级卷积 GRU，更有效地传播图像间的信息。RAFT-Stereo 的修改版本可进行准确的实时推断，其在 Middlebury 榜单上排名第一，在 1px 误差方面比第二好的方法高出 29％，并且在 ETH3D 两视图立体基准测试的所有已发布工作中表现最佳。代码可以在此 https URL 找到。

Sep, 2021

FILM: 大运动帧内插值

本文提出了一种针对大幅度中间动作的帧内插法算法，采用多尺度特征提取器的单一统一网络来进行训练，通过优化 Gram 矩阵损失实现了高质量的视频帧合成，竞争性地超越其他基于感知损失的方法，在多个基准测试中获得了更高的分数，并通过实验证明了该模型在难度较大的近似照片数据集上的有效性。

Feb, 2022

ST-MFNet：基于时空多流网络的帧插值

通过深度学习中的 Spatio-Temporal Multi-Flow 结构实现视频帧插值，采用 3D CNN 模型处理不同的视觉场景，最终应用 ST-GAN 框架进行效果提升，该方法在 14 个最新最优模型中赢得最优结果，PSNR 达到 1.09dB。

Nov, 2021