TiVGAN: 逐步进化生成器的文本、图像与视频生成

Sep, 2020

TiVGAN: 逐步进化生成器的文本、图像与视频生成

TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary Generator

Doyeon Kim, Donggyu Joo, Junmo Kim

TL;DR通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型，我们实现了对于给定的文本描述，生成相对应的视频，进而对深度学习、视频生成等相关领域进行研究探索。

Abstract

Advances in technology have led to the development of methods that can create desired visual multimedia. In particular, image generation using deep learning has been extensively studied across diverse fields. In comparison, video generation, especially on →

deep learning video generation text-to-image generative adversarial network conditional inputs

发现论文，激发创造

基于文本的视频生成

通过训练条件生成模型从文本中提取静态和动态信息，结合 VAE 和 GAN 的混合框架，采用画线和过滤器来生成可信度高和多样性强的文本视频。

Oct, 2017

从字幕生成视频：创造您所说的话

本文中，我们提出了一个新颖的基于标题的时序生成对抗网络（TGANs-C）来生成视频，该网络结合了数据的语义和时间上的一致性。我们通过定性和定量实验验证了我们的提议，并展示了在给定标题的情况下生成逼真视频的能力。

Apr, 2018

Text-Animator: 可控的视觉文本视频生成

我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Jun, 2024

AI 文本到图像和 AI 文本到视频生成器的调查

通过调研文献并分析各项研究方法，该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法，包括数据预处理技术、神经网络类型以及评估指标。此外，论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言，这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。

Nov, 2023

I4VGen：文本到视频生成的图像媒介

使用 I4VGen 框架，通过文本到图像到视频的多阶段过程，生成了更具视觉逼真度和文本准确性的视频，并能有效提升现有图像到视频扩散模型的整体质量。

Jun, 2024

MTVG: 多文本视频生成与文本到视频模型

最近，视频生成引起了广泛关注并取得了显着成果。针对视频的特点，多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型，通过直接利用预训练的基于扩散的文本到视频转换模型进行生成，而无需额外的微调。为了生成连续的视频片段，不同提示生成的视觉一致性是必要的，具有多样的变化，如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演，用于在不同提示的视频之间重新初始化噪声潜变量，以保持视觉一致性并防止重复运动或内容。此外，我们提出了结构导向采样，以在单个视频剪辑的帧之间保持全局外观，其中我们通过对前一帧进行迭代潜变量更新。此外，我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例：[此链接](https://this_URL)

Dec, 2023

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

Make-A-Video: 无需文本与视频数据的文本到视频生成

该研究提出一种名为 Make-A-Video 的方法，利用文本 - 图像生成的进展，从而实现文本 - 视频的生成，通过对时空模块的研究，提高了空间和时间的分辨率和文本的保真度并取得了最新的成果。

Sep, 2022

可控的图像描述生成视频技术

提出了一种名为 TI2V 的新的视频生成任务，即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器，其中包含一种创新的运动锚（MA）结构，以存储外观 - 运动对齐表示，通过三维轴向变压器与给定图像交互，支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。

Dec, 2021

生成对抗文本到图像的合成

利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式，将字符转换为像素，有效地将文本和图像建模相结合，从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。

May, 2016