一致性调节的视频生成

Mar, 2024

Video Generation with Consistency Tuning

Chaoyi Wang, Yaozhe Song, Yafeng Zhang, Jun Pei, Lijie Xia...

TL;DR通过四个模块的新型框架生成高质量的视频，并且能够优化每帧视频中的背景和前景的一致性。

Abstract

Currently, various studies have been exploring generation of long videos. However, the generated frames in these videos often exhibit jitter and

long videos jitter noise video generation framework

发现论文，激发创造

VideoMV：基於大型視頻生成模型的一致多視角生成

使用来自视频生成模型的图像，通过引入一种新的框架以及 3D 感知降噪采样策略，可以更快速地生成密集视图，提高图像的质量和一致性。

Mar, 2024

ConsistI2V：增强图像到视频生成的视觉一致性

使用扩散方法提升图像到视频的视觉一致性，通过引入空时注意力和从低频带噪声初始化的方式，生成高度一致的视频。同时，根据提出的方法进行了自动生成长视频和相机运动控制方面的拓展，并通过 I2V-Bench 进行了评估，结果表明 ConsistI2V 方法的优越性。

Feb, 2024

生成动态场景的长视频

本研究提出了一种视频生成模型，通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性，所得的模型经过新的基准数据集的测试，取得了良好的效果。

Jun, 2022

FreeNoise：无需调整的长视频扩散通过噪音重新调度

利用大规模视频数据集和扩散模型的进展，本研究通过引入多个文本条件，拓展了文本驱动视频生成模型的生成能力，解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。

Oct, 2023

基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法，并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证，同时还展示了结合文本和音频等条件扩展的方法。

Apr, 2022

CoNo：用于无需调整的长视频扩散的一致性噪声注入

通过引入 “回溯” 机制和设计长期一致性正则化来提高视频剪辑之间的细粒度场景过渡，以及消除通过噪声预测扩展视频内容时的内容偏移，该研究提出了无需调优的长视频扩散方法，并在单一和多个文本提示条件下进行了广泛的实验验证。

Jun, 2024

视频 LCM：视频潜在一致性模型

论文介绍了一种名为 VideoLCM 的框架，它利用了一致性模型的概念，通过最小步骤高效地合成视频，同时保持高质量。VideoLCM 基于现有的潜在视频扩散模型，并结合了一致性蒸馏技术来训练潜在一致性模型。实验结果表明，VideoLCM 在计算效率、保真度和时间一致性方面的有效性。尤其值得注意的是，VideoLCM 仅需四个采样步骤即可实现高保真度和流畅的视频合成，展示了实时合成的潜力。希望 VideoLCM 能成为后续研究的简单而有效的基准。源代码和模型将公开提供。

Dec, 2023

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

通过可控的长视频生成释放自主驾驶的泛化能力

使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准，然而现有方法在提高感知模型方面有效，但我们发现这些方法未能提高端到端自动驾驶模型的规划性能，原因在于生成的视频通常少于 8 帧且空间和时间不一致，为此我们提出了一种基于扩散的长视频生成方法 Delphi，通过跨多视角的共享噪声建模机制提高空间一致性，并引入特征对齐模块实现精确可控性和时间一致性，相比现有方法，我们的方法最多可生成 40 帧的视频而保持一致性，这是现有方法的 5 倍之多，进一步我们通过构建一个失败案例驱动框架，借助预训练视觉语言模型，设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据，提高了样本效率，广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频，首次超越现有最先进的方法，而且仅使用了训练数据集的 4％，我们的框架能够将自动驾驶模型的规划性能提升 25％。

Jun, 2024

StoryDiffusion: 长距离图像和视频生成的一致性自注意力

通过引入一种新的自我关注计算方式（Consistent Self-Attention），以及引入一种语义空间时间运动预测模块（Semantic Motion Predictor），本文提出了一种名为 StoryDiffusion 的框架，能够生成包含丰富内容的一致图像或视频，用来描述基于文本的故事。

May, 2024