Make-A-Video: 无需文本与视频数据的文本到视频生成
本文提出了一种使用文本作为上下文描述和动作结构(例如逐帧深度)作为具体指导的定制视频生成方法,涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明,该方法在时间一致性和与用户指导的忠实度方面表现优异,特别是在现有基线模型方面具有更好的性能。
Jun, 2023
提出了一种名为 TI2V 的新的视频生成任务,即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器,其中包含一种创新的运动锚(MA)结构,以存储外观 - 运动对齐表示,通过三维轴向变压器与给定图像交互,支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。
Dec, 2021
近期,研究人员在文本转语音生成方面的关注度不断增加,本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV,通过整合视觉对齐的文本嵌入到生成模型中,通过时间多头注意力转换器从视频数据中提取和理解时间细微差异,并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合,进一步增强集成性,以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估,T2AV 在视觉对齐和时间一致性上设立了新的标准。
Mar, 2024
通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型,我们实现了对于给定的文本描述,生成相对应的视频,进而对深度学习、视频生成等相关领域进行研究探索。
Sep, 2020
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
本文提出了一种新颖的两阶段框架,用于人物无关视频克隆,特别关注文本转视频生成。在第一阶段,我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法,根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析,确定了最有前景的研究和开发方法。
Aug, 2023
我们提出了一种创新的方法 Text-Animator,用于视觉文本视频生成,通过精确描述生成视频中视觉文本的结构,并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性,实验证明了我们方法在生成视觉文本准确性上的优越性。
Jun, 2024
Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.
Mar, 2024
通过调研文献并分析各项研究方法,该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法,包括数据预处理技术、神经网络类型以及评估指标。此外,论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言,这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。
Nov, 2023