长期视频预测的时间一致性视频 Transformer

Oct, 2022

长期视频预测的时间一致性视频 Transformer

Temporally Consistent Video Transformer for Long-Term Video Prediction

Wilson Yan, Danijar Hafner, Stephen James, Pieter Abbeel

TL;DR通过引入基于向量量化的潜在动态视频预测模型和 MaskGit 先验，我们提出了一种名为 TECO 的模型，它可以在训练和生成过程中有效地处理数百帧的长视频以实现长期时间一致性，不仅在简单的迷宫和大型 3D 世界中，而且在真实世界的复杂视频中也优于 SOTA 基准。

Abstract

Generating long, temporally consistent video remains an open challenge in video generation. Primarily due to computational limitations, most prior methods limit themselves to training on a small subset of frames that are then extended to generate longer videos through a sliding window

video generation temporal consistency video prediction vector-quantized latent dynamics mask prior

发现论文，激发创造

生成动态场景的长视频

本研究提出了一种视频生成模型，通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性，所得的模型经过新的基准数据集的测试，取得了良好的效果。

Jun, 2022

潜在视频变换器

本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Jun, 2020

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023

学习盲视频时间一致性

本文利用深度递归神经网络，结合短期、长期以及感知上的损失，为视频处理提供了一种基于帧的将原始视频和处理后的视频作为输入，生成时间上连贯的视频的方法，实现了对多种需求的处理，且无需光流计算，具有实时性能。

Aug, 2018

基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法，并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证，同时还展示了结合文本和音频等条件扩展的方法。

Apr, 2022

记忆巩固实现长时视频理解

利用现有的预训练视频 Transformer，并通过简单的微调来重复利用过去激活衍生的非参数化记忆，从而扩展其上下文到过去，以实现对长视频的优秀学习表现。

Feb, 2024

视频实例分割的时间高效视觉 Transformer

提出了一种名为 TeViT 的视觉 Transformer，它在视频实例分割任务中高效地对关键的时间信息进行建模，并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。

Apr, 2022

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

具有时间平滑 Transformer 的实时在线视频检测

通过在视频变压器的跨关注点中引入核的角度并应用两种时间平滑核，重新定义流式视频识别模型，拥有常数时间更新每帧的优势，在 THUMOS'14 和 EPIC-Kitchen-100 数据集上取得了最新的成果。

Sep, 2022

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021