Make-A-Video: 无需文本与视频数据的文本到视频生成

Sep, 2022

Make-A-Video: 无需文本与视频数据的文本到视频生成

Make-A-Video: Text-to-Video Generation without Text-Video Data

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An...

TL;DR该研究提出一种名为 Make-A-Video 的方法，利用文本 - 图像生成的进展，从而实现文本 - 视频的生成，通过对时空模块的研究，提高了空间和时间的分辨率和文本的保真度并取得了最新的成果。

Abstract

We propose make-a-video -- an approach for directly translating the tremendous recent progress in Text-to-Image (T2I) generation to Text-to-Video (t2v). Our intuition is simple: learn what the world looks like an

text-to-video generation t2v make-a-video spatial-temporal modules state-of-the-art

发现论文，激发创造

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023

文本无关视频生成的扩展方法

通过使用无文本视频进行训练，研究表明，扩大训练集规模并重新引入部分文本标签，可以使基于扩散的文本到视频生成的性能得到提升和改进。

Dec, 2023

可控的图像描述生成视频技术

提出了一种名为 TI2V 的新的视频生成任务，即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器，其中包含一种创新的运动锚（MA）结构，以存储外观 - 运动对齐表示，通过三维轴向变压器与给定图像交互，支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。

Dec, 2021

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

TiVGAN: 逐步进化生成器的文本、图像与视频生成

通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型，我们实现了对于给定的文本描述，生成相对应的视频，进而对深度学习、视频生成等相关领域进行研究探索。

Sep, 2020

VideoCrafter1：高质量视频生成的开放扩散模型

视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Oct, 2023

文本到视频：适用于零样本身份不可知的说话头像生成的两阶段框架

本文提出了一种新颖的两阶段框架，用于人物无关视频克隆，特别关注文本转视频生成。在第一阶段，我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法，根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析，确定了最有前景的研究和开发方法。

Aug, 2023

Text-Animator: 可控的视觉文本视频生成

我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Jun, 2024

视频电梯：用多功能的文本到图像扩散模型提升视频生成质量

Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.

Mar, 2024

AI 文本到图像和 AI 文本到视频生成器的调查

通过调研文献并分析各项研究方法，该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法，包括数据预处理技术、神经网络类型以及评估指标。此外，论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言，这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。

Nov, 2023