MicroCinema: 一种用于文本到视频生成的分而治之的方法

Nov, 2023

MicroCinema: 一种用于文本到视频生成的分而治之的方法

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

Yanhui Wang, Jianmin Bao, Wenming Weng, Ruoyu Feng, Dacheng Yin...

TL;DR我们提出了MicroCinema，这是一个简单却有效的框架，用于高质量和连贯的文本到视频生成。通过将文本到视频分为两个阶段的过程，即文本到图像生成和图像和文本到视频生成，MicroCinema具有两个显著优势：a) 利用最新的文本到图像模型，如Stable Diffusion，Midjourney和DALLE，生成逼真和高度详细的图像；b) 借助生成的图像，模型可以将较少的注意力放在细粒度外观细节上，优先学习动态运动。通过引入Appearance Injection Network和Appearance Noise Prior这两个核心设计，MicroCinema能够生成由提供的文本提示引导的高质量视频。广泛的实验表明了该方法的优越性。具体而言，MicroCinema在UCF-101上实现了342.86的零样本FVD和在MSR-VTT上实现了377.40的零样本FVD。点击此链接查看视频示例。

Abstract

We present microcinema, a straightforward yet effective framework for high-quality and coherent text-to-video generation. Unlike existing approaches that align text prompts with video directly, →

发现论文，激发创造

Make-A-Video: 无需文本与视频数据的文本到视频生成

该研究提出一种名为Make-A-Video的方法，利用文本-图像生成的进展，从而实现文本-视频的生成，通过对时空模块的研究，提高了空间和时间的分辨率和文本的保真度并取得了最新的成果。

Sep, 2022

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及3D对象理解。

Oct, 2022

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

ART·V: 基于扩散模型的自回归文本到视频生成

ART·V 是一个高效的自回归视频生成框架，使用扩散模型逐帧生成视频，并通过简化连续帧之间的运动来避免建模复杂的远程运动，同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示，ART·V 可以生成任意长度的视频，具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件，ART·V 进一步提升了生成一致性和生成的视觉质量，能够在短时间内生成带有自然运动、丰富细节和高美感的视频，并支持多个文本提示组合成长视频的应用。

Nov, 2023

MTVG: 多文本视频生成与文本到视频模型

最近，视频生成引起了广泛关注并取得了显着成果。针对视频的特点，多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型，通过直接利用预训练的基于扩散的文本到视频转换模型进行生成，而无需额外的微调。为了生成连续的视频片段，不同提示生成的视觉一致性是必要的，具有多样的变化，如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演，用于在不同提示的视频之间重新初始化噪声潜变量，以保持视觉一致性并防止重复运动或内容。此外，我们提出了结构导向采样，以在单个视频剪辑的帧之间保持全局外观，其中我们通过对前一帧进行迭代潜变量更新。此外，我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例：[此链接](https://this_URL)

Dec, 2023

Snap Video：用于文本到视频合成的缩放时空Transformers

生成高质量、时空连贯、动作复杂的视频，提升图像模型的视频生成能力，并减少运算负载。

Feb, 2024

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过StreamingT2V方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

TI2V-Zero: 文本到视频扩散模型中的零样本图像调节

提出了TI2V-Zero：一种无需优化或微调的零样本方法，通过使用预训练的文本到视频扩散模型，使其能够在给定图像的条件下生成实际视频。该方法使用“重复滑动”策略来引导视频生成，并提供了一种保持视觉细节的新合成帧初始化和重新采样技术，从而实现视频的逐帧合成。TI2V-Zero在领域特定和开放领域数据集上的实验证明了其优越性能，并且能够无缝扩展到其他任务和支持长视频生成。

Apr, 2024

xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

本研究解决了文本到视频生成过程中高计算成本的问题，提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略，优化了视频数据的处理，并保持临时一致性。实验结果表明，xGen-VideoSyn-1在生成720p视频时具备竞争力的性能，推动了文本到视频合成技术的发展。

Aug, 2024