视频帧插值变换器

Nov, 2021

Video Frame Interpolation Transformer

Zhihao Shi, Xiangyu Xu, Xiaohong Liu, Jun Chen, Ming-Hsuan Yang

TL;DR本论文提出了一种基于 Transformer 模型的视频插帧方法，利用自注意力机制实现了内容关注的多尺度帧间聚合，并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。

Abstract

Existing methods for video interpolation heavily rely on deep convolution neural networks, and thus suffer from their intrinsic limitations, such as content-agnostic kernel weights and restricted receptive field. To address these issues, we propose a →

video interpolation transformer self-attention local attention multi-scale frame synthesis

发现论文，激发创造

使用流变换器进行视频帧插值

我们提出了一种视频帧插值流 Transformer 的方法，通过将运动动态从光流中引入自注意机制，使得我们的框架适用于插值具有大运动的帧，同时保持相对较低的复杂性，并通过构建多尺度架构来提高整体性能，实验证明该方法能够生成比现有方法更好视觉质量的插值帧。

Jul, 2023

使用 Transformer 的视频帧插值

使用 Transformer 和跨尺度窗口关注机制的视频帧插值方法，在多个基准测试上达到了新的最先进结果。

May, 2022

基于卷积和 Transformer 的视频帧插帧网络

本文提出一种创新的方法，将 Transformer 编码器和卷积特征相结合，从而减少了近 50% 的内存负担，在推理时间上比现有的基于 Transformer 的插值方法运行速度提高了近四倍，并引入双编码器架构来结合局部相关的卷积和远程相关的 Transformer。在复杂运动方面进行了定量评估，展示了所提出方法的鲁棒性，与最先进的插值网络相比，取得了竞争性能。

Jul, 2023

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

ConvTransformer: 用于视频帧合成的卷积变换器网络

本文提出了一种名为 ConvTransformer 的深层卷积神经网络结构，通过注意力机制学习序列数据之间的依赖关系，用于视频帧合成，相较于传统的卷积 LSTM 方法可实现更好的并行计算效果。

Nov, 2020

自适应卷积实现视频帧插值

通过使用一个深度卷积神经网络，将视频帧的插值过程作为一个单一卷积过程来处理，可以更好地解决运动估计质量的问题，并且能够优雅地处理一些挑战如遮挡，模糊和亮度变化，从而实现高质量的视频帧插值。

Mar, 2017

深度感知视频帧插值

该研究提出了一种通过探索深度信息来明确检测遮挡的视频帧插值方法，其中利用深度感知流投影层来合成中间流动图像，并且通过分类学习来收集周边像素的上下文信息，实现了输入帧、深度图和像素之间的变换以实现帧合成。

Apr, 2019

VPTR 视频预测的高效 Transformer

本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块，用于视频未来帧预测，并构建了一个全自回归视频未来帧预测 Transformer 框架，另外还提出了一个非自回归视频预测 Transformer 框架，并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作，所提出的模型在性能上与更复杂的现有模型竞争力相当。

Mar, 2022

通用可变形卷积的视频帧插值

本论文提出了一种基于广义可变形卷积的新的视频帧插值方法，该方法可以学习运动信息并自由选择时空采样点，经过广泛的实验证明，该方法在处理复杂运动时表现出类似于最先进技术的性能。

Aug, 2020

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021