ViP-Mixer：视频预测的卷积混合器

Nov, 2023

ViP-Mixer: A Convolutional Mixer for Video Prediction

Xin Zheng, Ziang Peng, Yuan Cao, Hongming Shan, Junping Zhang

TL;DR本文提出了一种名为 ViP-Mixer 的卷积混合器，用于视频预测，模拟了自编码器潜在空间中的时空演变，并通过在帧、通道和位置三个层次交错特征混合，取得了在包括合成和真实场景的三个基准视频数据集上的新的预测性能的最新成果。

Abstract

video prediction aims to predict future frames from a video's previous content. Existing methods mainly process video data where the time dimension mingles with the space and channel dimensions from three distinct angles: as a sequence of individual frames, as a 3D volume in

video prediction spatiotemporal coordinates convolutional mixer vip-mixer prediction performance

发现论文，激发创造

DeepVideoMVS：基于重复时空融合的多视点视频立体匹配

该论文提出了一种在线多视角深度预测方法，使用 ConvLSTM cell 实现对过去一定量信息的压缩，并考虑了时间步之间的视点变化，通过对先前的深度预测进行位移实现细胞的隐藏态的传播。该方法在实时性能的基础上带来了显著的深度预测的提高，并在数百个室内场景中表现出了优异的状态，代码详见 https://thisURL。

Dec, 2020

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

ContextVP：完全上下文感知视频预测

通过使用并行多维 LSTM 单元和融合单元进行数据聚合处理，提出了一种全面考虑过去背景信息的上下文感知结构，从而提高了视频预测的性能。该模型没有使用深度卷积网络、多尺度结构、分离前景和背景建模、运动流学习或对抗性训练等技术，性能超过了强基线模型并在多个领域展示了最新成果。

Oct, 2017

深度多尺度视频预测：超越均方误差

通过卷积网络、对抗训练和特征学习等策略，实现了未来图像预测

Nov, 2015

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

改进的条件性 VRNNs 用于视频预测

本文提出了一种基于层次结构的潜变量模型来提高模型表达能力，减少模糊预测，用于视频序列的未来帧预测任务，经过实验证明本方法在不同数据集上优于现有的潜变量模型。

Apr, 2019

VPTR 视频预测的高效 Transformer

本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块，用于视频未来帧预测，并构建了一个全自回归视频未来帧预测 Transformer 框架，另外还提出了一个非自回归视频预测 Transformer 框架，并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作，所提出的模型在性能上与更复杂的现有模型竞争力相当。

Mar, 2022

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

连续条件视频预测的统一模型

本文提出了一种统一的神经过程模型，该模型以强化了的 Transformer 为基础，既可以在多个数据集上有效地处理条件视频预测任务（包括视频未来帧预测和视频帧插值），又可以实现连续预测 / 插值，且性能优于现有工作。

Oct, 2022

使用直接 3D 卷积进行视频中间帧插值

提出了一种使用卷积模型实现视频 inbetweening 的方法，该模型通过逐步增加时间分辨率来学习生成潜在视频表示，最后用 3D 卷积在空时领域中解码，结果在广泛使用的基准数据集上表现出了显著的稳定性和多样性。

May, 2019