超越单一视频片段的视频生成

Apr, 2023

Video Generation Beyond a Single Clip

Hsin-Ping Huang, Yu-Chuan Su, Ming-Hsuan Yang

TL;DR提出使用指导信息和两阶段方法来生成多样化的长视频，该方法在客观指标上比现有技术提高多达 9.5％，得到超过 80％的用户偏好。

Abstract

We tackle the long video generation problem, i.e.~generating videos beyond the output length of video generation models. Due to the computation resource constraints, →

video generation long videos diverse content guidance two-stage approach

发现论文，激发创造

生成动态场景的长视频

本研究提出了一种视频生成模型，通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性，所得的模型经过新的基准数据集的测试，取得了良好的效果。

Jun, 2022

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

视频∞：分布式长视频生成

在本文中，我们介绍了 Video-Infinity，它是一个分布式推理管道，能够跨多个 GPU 进行并行处理，实现长形式视频的生成。具体来说，我们提出了两个一致的机制：片段并行性和双范围注意力。这两种机制共同协作以分发工作负载并实现快速生成长视频。在 8 个 Nvidia 6000 Ada GPU（48G）的设置下，我们的方法能够以每分钟大约 5 分钟的速度生成高达 2300 帧的视频，使长视频的生成速度比以前的方法快 100 倍。

Jun, 2024

长视频生成调查：挑战、方法与前景

本研究综述了长视频生成的最新进展，总结并归类了两个主要方法：分治时序自回归。针对每种方法中常用的模型、网络设计和条件技术进行了深入探究。此外，我们还提供了对数据集和评估指标的全面概述和分类，对于推动长视频生成研究至关重要。在总结现有研究的同时，我们讨论了这个动态领域中出现的挑战和未来发展方向。希望本综述能成为研究者和从业者在长视频生成领域的重要参考。

Mar, 2024

基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法，并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证，同时还展示了结合文本和音频等条件扩展的方法。

Apr, 2022

点对点视频生成

提出一种通过两个控制点 (起始和结束帧) 控制生成过程的视频生成方法，采用跳帧训练策略并最大化修改的条件数据似然下限，实验结果表明该方法在动态长度生成等多个场景下具有显著的潜力和优点。

Apr, 2019

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

通过可控的长视频生成释放自主驾驶的泛化能力

使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准，然而现有方法在提高感知模型方面有效，但我们发现这些方法未能提高端到端自动驾驶模型的规划性能，原因在于生成的视频通常少于 8 帧且空间和时间不一致，为此我们提出了一种基于扩散的长视频生成方法 Delphi，通过跨多视角的共享噪声建模机制提高空间一致性，并引入特征对齐模块实现精确可控性和时间一致性，相比现有方法，我们的方法最多可生成 40 帧的视频而保持一致性，这是现有方法的 5 倍之多，进一步我们通过构建一个失败案例驱动框架，借助预训练视觉语言模型，设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据，提高了样本效率，广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频，首次超越现有最先进的方法，而且仅使用了训练数据集的 4％，我们的框架能够将自动驾驶模型的规划性能提升 25％。

Jun, 2024

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

MovieLLM：使用 AI 生成的影片增强长视频理解能力

MovieLLM 提出了一种新颖的框架，利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉，从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题，显著提高了多模态模型对复杂视频叙事的理解能力，克服了现有数据集的限制。

Mar, 2024