ViP-Mixer:视频预测的卷积混合器
该论文提出了一种在线多视角深度预测方法,使用 ConvLSTM cell 实现对过去一定量信息的压缩,并考虑了时间步之间的视点变化,通过对先前的深度预测进行位移实现细胞的隐藏态的传播。该方法在实时性能的基础上带来了显著的深度预测的提高,并在数百个室内场景中表现出了优异的状态,代码详见 https://thisURL。
Dec, 2020
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
通过使用并行多维 LSTM 单元和融合单元进行数据聚合处理,提出了一种全面考虑过去背景信息的上下文感知结构,从而提高了视频预测的性能。该模型没有使用深度卷积网络、多尺度结构、分离前景和背景建模、运动流学习或对抗性训练等技术,性能超过了强基线模型并在多个领域展示了最新成果。
Oct, 2017
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本文提出了一种基于层次结构的潜变量模型来提高模型表达能力,减少模糊预测,用于视频序列的未来帧预测任务,经过实验证明本方法在不同数据集上优于现有的潜变量模型。
Apr, 2019
本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块,用于视频未来帧预测,并构建了一个全自回归视频未来帧预测 Transformer 框架,另外还提出了一个非自回归视频预测 Transformer 框架,并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作,所提出的模型在性能上与更复杂的现有模型竞争力相当。
Mar, 2022
本文介绍 ConvMixer 模型,它使用标准卷积来混合图像块,并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种,同时也优于经典的 ResNet 等视觉模型。
Jan, 2022
本文提出了一种统一的神经过程模型,该模型以强化了的 Transformer 为基础,既可以在多个数据集上有效地处理条件视频预测任务(包括视频未来帧预测和视频帧插值),又可以实现连续预测 / 插值,且性能优于现有工作。
Oct, 2022
提出了一种使用卷积模型实现视频 inbetweening 的方法,该模型通过逐步增加时间分辨率来学习生成潜在视频表示,最后用 3D 卷积在空时领域中解码,结果在广泛使用的基准数据集上表现出了显著的稳定性和多样性。
May, 2019