生成动态场景的长视频

Jun, 2022

Generating Long Videos of Dynamic Scenes

Tim Brooks, Janne Hellsten, Miika Aittala, Ting-Chun Wang, Timo Aila...

TL;DR本研究提出了一种视频生成模型，通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性，所得的模型经过新的基准数据集的测试，取得了良好的效果。

Abstract

We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real e

video generation model temporal consistency long-term dynamics two-phase training strategy benchmark datasets

发现论文，激发创造

超越单一视频片段的视频生成

提出使用指导信息和两阶段方法来生成多样化的长视频，该方法在客观指标上比现有技术提高多达 9.5％，得到超过 80％的用户偏好。

Apr, 2023

基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法，并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证，同时还展示了结合文本和音频等条件扩展的方法。

Apr, 2022

生成具有场景动态的视频

利用大量未标记的视频来学习场景动态的模型，提出了一种具有时空卷积结构的生成对抗网络来生成视频，该模型能够更好地预测静态图像的合理未来，并且能够识别动作的有用特征，这表明场景动态是表示学习的一个有前途的信号。

Sep, 2016

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

通过可控的长视频生成释放自主驾驶的泛化能力

使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准，然而现有方法在提高感知模型方面有效，但我们发现这些方法未能提高端到端自动驾驶模型的规划性能，原因在于生成的视频通常少于 8 帧且空间和时间不一致，为此我们提出了一种基于扩散的长视频生成方法 Delphi，通过跨多视角的共享噪声建模机制提高空间一致性，并引入特征对齐模块实现精确可控性和时间一致性，相比现有方法，我们的方法最多可生成 40 帧的视频而保持一致性，这是现有方法的 5 倍之多，进一步我们通过构建一个失败案例驱动框架，借助预训练视觉语言模型，设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据，提高了样本效率，广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频，首次超越现有最先进的方法，而且仅使用了训练数据集的 4％，我们的框架能够将自动驾驶模型的规划性能提升 25％。

Jun, 2024

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

长期视频预测的时间一致性视频 Transformer

通过引入基于向量量化的潜在动态视频预测模型和 MaskGit 先验，我们提出了一种名为 TECO 的模型，它可以在训练和生成过程中有效地处理数百帧的长视频以实现长期时间一致性，不仅在简单的迷宫和大型 3D 世界中，而且在真实世界的复杂视频中也优于 SOTA 基准。

Oct, 2022

长视频生成调查：挑战、方法与前景

本研究综述了长视频生成的最新进展，总结并归类了两个主要方法：分治时序自回归。针对每种方法中常用的模型、网络设计和条件技术进行了深入探究。此外，我们还提供了对数据集和评估指标的全面概述和分类，对于推动长视频生成研究至关重要。在总结现有研究的同时，我们讨论了这个动态领域中出现的挑战和未来发展方向。希望本综述能成为研究者和从业者在长视频生成领域的重要参考。

Mar, 2024

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

Make-It-4D: 从单张图像综合生成一致的长期动态场景视频

通过估计 4D（包括 3D 几何和场景运动）并填充遮挡区域，本文提出了 Make-It-4D 方法，从单个图像中生成一致的长期动态视频。通过使用分层深度图像（LDIs）表示场景，并利用运动估计和相应的相机姿势引导的场景流来位移特征点云，我们的方法能够保持生成动态视频的全局一致性，并利用预训练扩散模型来修补输入图像的遮挡区域，从而适用于大幅度相机运动。实验结果证明了我们方法的有效性，展示了引人注目的渲染结果。

Aug, 2023