VPTR 视频预测的高效 Transformer

Mar, 2022

VPTR: Efficient Transformers for Video Prediction

Xi Ye, Guillaume-Alexandre Bilodeau

TL;DR本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块，用于视频未来帧预测，并构建了一个全自回归视频未来帧预测 Transformer 框架，另外还提出了一个非自回归视频预测 Transformer 框架，并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作，所提出的模型在性能上与更复杂的现有模型竞争力相当。

Abstract

In this paper, we propose a new transformer block for video future frames prediction based on an efficient local spatial-temporal separation attention mechanism. Based on this new transformer block, a fully

transformer video prediction spatial-temporal attention autoregressive contrastive feature loss

发现论文，激发创造

潜在视频变换器

本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Jun, 2020

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

VRT: 视频修复变换器

本文介绍了一种基于 Transformer 的视频修复方法，利用时序信息进行跨帧高清图像恢复，在多个基准数据集上均取得了高于现有方法的表现。

Jan, 2022

视频帧插值变换器

本论文提出了一种基于 Transformer 模型的视频插帧方法，利用自注意力机制实现了内容关注的多尺度帧间聚合，并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。

Nov, 2021

视频超分辨率变换器

本研究采用 Transformer 对视频超分辨率问题进行了改进，引入了空时卷积自注意力层以利用数据位置信息，设计了双向光流驱动前馈层以发现不同视频帧之间的相关性并对齐特征，实验证明了这种方法的有效性。

Jun, 2021

预测性视频转换器

提出了一种名为 AVT 的模型，它是一种基于注意力机制的端到端视频建模架构，通过关注之前观察过的视频来预测未来的动作，通过在训练时同时预测视频序列中的下一个动作。与现有的时序汇聚策略相比，AVT 在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性，这对于预测任务非常关键。通过广泛的实验，该研究表明 AVT 在四个流行的动作预测基准测试中达到了最佳性能：EpicKitchens-55、EpicKitchens-100、EGTEA Gaze + 和 50-Salads；并在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。

Jun, 2021

学习轨迹感知的视频超分辨率转换器

本研究提出了一种基于轨迹感知 Transformer 的视频超分辨率方法，利用空间和时间的信息来实现视频帧的超分辨率，实验证明该方法优于现有的超分辨率模型。

Apr, 2022

具有掩码内外帧关注的视频超分辨率 Transformer

通过提出一种新颖的特征级遮蔽处理框架 MIA-VSR，本文解决了 Vision Transformer 在受限设备上应用的计算负担和内存占用过大的问题，并通过详细的消融研究验证了方法的有效性和与最新技术的比较结果。

Jan, 2024

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020