文本无关视频生成的扩展方法
该研究提出一种名为 Make-A-Video 的方法,利用文本 - 图像生成的进展,从而实现文本 - 视频的生成,通过对时空模块的研究,提高了空间和时间的分辨率和文本的保真度并取得了最新的成果。
Sep, 2022
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
本文研究现有评估指标的局限性,并引入一种新的评估方法,即 Text-to-Video Score (T2VScore),该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时,我们提出了 TVGE 数据集,以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性,能够提供更好的评估指标。
Jan, 2024
本文提出了一种新颖的两阶段框架,用于人物无关视频克隆,特别关注文本转视频生成。在第一阶段,我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法,根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析,确定了最有前景的研究和开发方法。
Aug, 2023
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023
提出了 TI2V-Zero:一种无需优化或微调的零样本方法,通过使用预训练的文本到视频扩散模型,使其能够在给定图像的条件下生成实际视频。该方法使用 “重复滑动” 策略来引导视频生成,并提供了一种保持视觉细节的新合成帧初始化和重新采样技术,从而实现视频的逐帧合成。TI2V-Zero 在领域特定和开放领域数据集上的实验证明了其优越性能,并且能够无缝扩展到其他任务和支持长视频生成。
Apr, 2024
Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.
Mar, 2024
本研究提出一种新的双阶段训练方法,可利用易获得的数据集和预训练的 text-to-image(T2I)模型,生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频,同时保持了预训练 T2I 模型的编辑和概念构成能力。
Apr, 2023
提出了一种基于扩散模型的新方法,从文本生成以动态三维物体为中心的高质量多视图视频,通过将问题分解为视点空间和时间组件,并引入对齐模块来保证生成的多视图视频的一致性和连贯性,同时解决了二维和多视图数据之间的领域差异。
Jun, 2024