基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

ECCVApr, 2022

基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

Songwei Ge, Thomas Hayes, Harry Yang, Xi Yin, Guan Pang...

TL;DR本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法，并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证，同时还展示了结合文本和音频等条件扩展的方法。

Abstract

Videos are created to express emotion, exchange information, and share experiences. video synthesis has intrigued researchers for a long time. Despite the rapid progress driven by advances in visual synthesis, most existing studies focus on improving the frames' quality and the transit

video synthesis 3d-vqgan transformers long videos conditional extensions

发现论文，激发创造

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

生成动态场景的长视频

本研究提出了一种视频生成模型，通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性，所得的模型经过新的基准数据集的测试，取得了良好的效果。

Jun, 2022

超越单一视频片段的视频生成

提出使用指导信息和两阶段方法来生成多样化的长视频，该方法在客观指标上比现有技术提高多达 9.5％，得到超过 80％的用户偏好。

Apr, 2023

长视频生成调查：挑战、方法与前景

本研究综述了长视频生成的最新进展，总结并归类了两个主要方法：分治时序自回归。针对每种方法中常用的模型、网络设计和条件技术进行了深入探究。此外，我们还提供了对数据集和评估指标的全面概述和分类，对于推动长视频生成研究至关重要。在总结现有研究的同时，我们讨论了这个动态领域中出现的挑战和未来发展方向。希望本综述能成为研究者和从业者在长视频生成领域的重要参考。

Mar, 2024

StyleGAN-V：具备 StyleGAN2 的价格、图像质量和特点的连续视频生成器

本文基于神经表示方法设计了一个连续时间视频生成器，提出了基于位置嵌入设计连续运动表示的思想，构建了一个聚合时间信息的完整判别器，使用该方法可以以更少的训练成本直接训练 1024x1024 的视频，并取得了优于其他同类工作的生成效果。

Dec, 2021

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

视频到视频合成

本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法，可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频，此方法成功优化了视频生成技术的最新发展状态，并被应用于未来视频预测。

Aug, 2018

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

Snap Video：用于文本到视频合成的缩放时空 Transformers

生成高质量、时空连贯、动作复杂的视频，提升图像模型的视频生成能力，并减少运算负载。

Feb, 2024

长期视频预测的时间一致性视频 Transformer

通过引入基于向量量化的潜在动态视频预测模型和 MaskGit 先验，我们提出了一种名为 TECO 的模型，它可以在训练和生成过程中有效地处理数百帧的长视频以实现长期时间一致性，不仅在简单的迷宫和大型 3D 世界中，而且在真实世界的复杂视频中也优于 SOTA 基准。

Oct, 2022