鸸鹋视频：通过明确图像调节来因式分解文本到视频生成

Nov, 2023

鸸鹋视频：通过明确图像调节来因式分解文本到视频生成

Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning

Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Duval, Samaneh Azadi...

TL;DR我们提出了 Emu Video，一个文本到视频生成模型，将生成过程分解为两个步骤：首先根据文本生成图像，然后根据文本和生成的图像生成视频。我们确定了关键的设计决策 - 对扩散进行调整的噪声计划和多阶段训练，使我们能够直接生成高质量高分辨率的视频，而无需像之前的工作那样需要一系列深度模型级联。在人工评估中，与所有之前的工作相比，我们生成的视频在质量上都得到了极高的评价 - 相对于 Google 的 Imagen Video 为 81%，Nvidia 的 PYOCO 为 90%，Meta 的 Make-A-Video 为 96%。我们的模型胜过商业解决方案如 RunwayML 的 Gen2 和 Pika Labs。最后，我们的分解方法自然地提供了根据用户的文本提示给图像赋予动画效果的能力，在这方面，我们的生成结果相对于之前的工作得到了 96% 的偏好。

Abstract

We present emu video, a text-to-video generation model that factorizes the generation into two steps: first generating an image conditione

emu video text-to-video generation image generation video generation critical design decisions

发现论文，激发创造

基于文本的视频生成

通过训练条件生成模型从文本中提取静态和动态信息，结合 VAE 和 GAN 的混合框架，采用画线和过滤器来生成可信度高和多样性强的文本视频。

Oct, 2017

TiVGAN: 逐步进化生成器的文本、图像与视频生成

通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型，我们实现了对于给定的文本描述，生成相对应的视频，进而对深度学习、视频生成等相关领域进行研究探索。

Sep, 2020

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video 是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。

Oct, 2022

通过草堆中的靓丽针使图像生成模型更上一层楼

通过在网络规模的图像 - 文本对上训练文本到图像模型，可以从文本生成广泛的视觉概念，但是这些经过预训练的模型在生成高度美学化图像方面往往面临挑战，因此需要进行美学对齐的预训练后处理。本文中，我们提出了质量微调方法，以有效地指导经过预训练的模型专门生成高度视觉吸引力图像，同时保持对视觉概念的普适性。我们的关键洞察是，使用一组数量惊人少但极具视觉吸引力的图像进行有监督的精细调整可以显著提高生成质量。我们在 11 亿个图像 - 文本对上预训练潜在扩散模型，并仅使用几千个精心挑选的高质量图像进行微调。得到的模型 Emu 在美学上的胜率为 82.9％，相比仅经过预训练的模型。与最先进的 SDXLv1.0 相比，在标准的 PartiPrompts 和我们的基于真实世界文本到图像模型使用情况的 Open User Input 基准测试上，Emu 被优先选择的概率分别为 68.4％和 71.3％。此外，我们还展示了质量微调是一种通用方法，在其他架构中也同样有效，包括像素扩散和掩膜生成变压器模型。

Sep, 2023

ConditionVideo: 无需训练的条件引导文本到视频生成

在本文中，我们介绍了一种无需训练的文本到视频生成方法，通过利用现有的文本到图像生成方法生成逼真的动态视频，这种方法以条件、视频和输入文本为基础。我们的方法将运动表示明确地分为条件引导和场景运动组成，并引入了稀疏双向时空注意力来改善时序一致性。与其他比较方法相比，我们的方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。

Oct, 2023

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

多模态生成预训练

本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型，它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练，将任何单模态或多模态数据输入混合 (例如，交错的图像、文本和视频)，并表现得十分出色。

Jul, 2023

细粒度可控视频生成：通过物体外观和上下文

通过细粒度可控的视频生成（FACTOR）方法，基于文本提示和细粒度控制信号，我们的模型实现了对象外观和上下文（包括位置和类别）的详细控制。相比于依赖密集控制信号如边缘图的现有方法，我们提供了更直观和用户友好的界面，允许对象级细粒度控制，而且无需微调即可实现对象外观的可控性，为用户减少了每个主题的优化工作量。在标准基准数据集和用户提供的输入上进行了广泛实验，验证了我们的模型在可控性指标上相对竞争对手方法取得了 70% 的改进。

Dec, 2023

Text-Animator: 可控的视觉文本视频生成

我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Jun, 2024