Text-Animator: 可控的视觉文本视频生成

Jun, 2024

Text-Animator: 可控的视觉文本视频生成

Text-Animator: Controllable Visual Text Video Generation

Lin Liu, Quande Liu, Shengju Qian, Yuan Zhou, Wengang Zhou...

TL;DR我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Abstract

video generation is a challenging yet pivotal task in various industries, such as gaming, e-commerce, and advertising. One significant unresolved aspect within T2V is the effective visualization of text within generated videos. Despite the progress achieved in →

video generation text visualization text-to-video visual text generation text-animator

发现论文，激发创造

可控的图像描述生成视频技术

提出了一种名为 TI2V 的新的视频生成任务，即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器，其中包含一种创新的运动锚（MA）结构，以存储外观 - 运动对齐表示，通过三维轴向变压器与给定图像交互，支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。

Dec, 2021

TiVGAN: 逐步进化生成器的文本、图像与视频生成

通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型，我们实现了对于给定的文本描述，生成相对应的视频，进而对深度学习、视频生成等相关领域进行研究探索。

Sep, 2020

文本驱动的人类视频生成

本文提出了 Text2Performer 算法，基于文本描述生成拥有精细动作的逼真人类视频，并提供了 Fashion-Text2Video 数据集用于辅助该任务。其中包括了两个新设计：将 VQVAE 潜空间表示细分为人物形象和姿势表示，并通过连续 VQ-diffuser 对姿势编码进行采样，得到更好的动作建模。该算法在多项实验中表现出成果丰硕。

Apr, 2023

ControlVideo: 无需训练的可控文本到视频生成

ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成，使用三个模块实现外观协调、帧插值以及分层采样，能够在轻松几分钟之内生成高质量的短视频和长视频。

May, 2023

利用检索辅助视频生成技术的动画故事讲述

提出了一种使用现有短视频合成视觉讲述视频的技术，该技术基于查询文本描述运动结构，在结构引导和外观指导下生成基于情节的视频，并通过概念个性化方法保证视频的视觉一致性。

Jul, 2023

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023

MTVG: 多文本视频生成与文本到视频模型

最近，视频生成引起了广泛关注并取得了显着成果。针对视频的特点，多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型，通过直接利用预训练的基于扩散的文本到视频转换模型进行生成，而无需额外的微调。为了生成连续的视频片段，不同提示生成的视觉一致性是必要的，具有多样的变化，如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演，用于在不同提示的视频之间重新初始化噪声潜变量，以保持视觉一致性并防止重复运动或内容。此外，我们提出了结构导向采样，以在单个视频剪辑的帧之间保持全局外观，其中我们通过对前一帧进行迭代潜变量更新。此外，我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例：[此链接](https://this_URL)

Dec, 2023

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

LivePhoto：带有文本引导的实时图像动画与运动控制

通过 LivePhoto 系统，使用者可以通过文本描述来为感兴趣的图像添加动画效果，系统通过改进的生成器和设计的训练流程，实现了文本到视频的解码，进而实现了对视频的自定义。

Dec, 2023

基于文本的视频生成

通过训练条件生成模型从文本中提取静态和动态信息，结合 VAE 和 GAN 的混合框架，采用画线和过滤器来生成可信度高和多样性强的文本视频。

Oct, 2017