Text-Animator: 可控的视觉文本视频生成
提出了一种名为 TI2V 的新的视频生成任务,即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器,其中包含一种创新的运动锚(MA)结构,以存储外观 - 运动对齐表示,通过三维轴向变压器与给定图像交互,支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。
Dec, 2021
通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型,我们实现了对于给定的文本描述,生成相对应的视频,进而对深度学习、视频生成等相关领域进行研究探索。
Sep, 2020
本文提出了 Text2Performer 算法,基于文本描述生成拥有精细动作的逼真人类视频,并提供了 Fashion-Text2Video 数据集用于辅助该任务。其中包括了两个新设计:将 VQVAE 潜空间表示细分为人物形象和姿势表示,并通过连续 VQ-diffuser 对姿势编码进行采样,得到更好的动作建模。该算法在多项实验中表现出成果丰硕。
Apr, 2023
ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成,使用三个模块实现外观协调、帧插值以及分层采样,能够在轻松几分钟之内生成高质量的短视频和长视频。
May, 2023
提出了一种使用现有短视频合成视觉讲述视频的技术,该技术基于查询文本描述运动结构,在结构引导和外观指导下生成基于情节的视频,并通过概念个性化方法保证视频的视觉一致性。
Jul, 2023
本文提出了一种使用文本作为上下文描述和动作结构(例如逐帧深度)作为具体指导的定制视频生成方法,涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明,该方法在时间一致性和与用户指导的忠实度方面表现优异,特别是在现有基线模型方面具有更好的性能。
Jun, 2023
最近,视频生成引起了广泛关注并取得了显着成果。针对视频的特点,多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型,通过直接利用预训练的基于扩散的文本到视频转换模型进行生成,而无需额外的微调。为了生成连续的视频片段,不同提示生成的视觉一致性是必要的,具有多样的变化,如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演,用于在不同提示的视频之间重新初始化噪声潜变量,以保持视觉一致性并防止重复运动或内容。此外,我们提出了结构导向采样,以在单个视频剪辑的帧之间保持全局外观,其中我们通过对前一帧进行迭代潜变量更新。此外,我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例:[此链接](https://this_URL)
Dec, 2023
近期,研究人员在文本转语音生成方面的关注度不断增加,本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV,通过整合视觉对齐的文本嵌入到生成模型中,通过时间多头注意力转换器从视频数据中提取和理解时间细微差异,并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合,进一步增强集成性,以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估,T2AV 在视觉对齐和时间一致性上设立了新的标准。
Mar, 2024
通过 LivePhoto 系统,使用者可以通过文本描述来为感兴趣的图像添加动画效果,系统通过改进的生成器和设计的训练流程,实现了文本到视频的解码,进而实现了对视频的自定义。
Dec, 2023