视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
本文提出了一种使用传统的图像层面个性化方法解决现有视频编辑方法中的偏见问题,通过运动个性化从单一源视频中分离运动并相应地修改主角,并引入一种新颖的伪光流来调节运动词以适应运动相关区域,最终通过额外的伪词将运动与源视频的外观分离,从而实现了更多样化和广泛的视频编辑能力。
Dec, 2023
本文提出了一种使用文本作为上下文描述和动作结构(例如逐帧深度)作为具体指导的定制视频生成方法,涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明,该方法在时间一致性和与用户指导的忠实度方面表现优异,特别是在现有基线模型方面具有更好的性能。
Jun, 2023
通过使用无文本视频进行训练,研究表明,扩大训练集规模并重新引入部分文本标签,可以使基于扩散的文本到视频生成的性能得到提升和改进。
通过扩展现有的文本到视频生成模型,我们引入了一种方法来增加定制动作,以超越原始训练数据中所描绘的动作。通过利用几个呈现特定动作的视频样本作为输入,我们的方法学习并概括了多样化的、与文本指定情景相关的输入动作模式。
一项针对基于文本的视频编辑的新型高效方法,通过自动生成适用于视频转换任务的合成配对视频数据集,用于视频图像编辑指令的转换,并采用长视频采样校正以确保一致性。该方法超越了现有的方法(如 Tune-A-Video),在基于文本的视频编辑方面取得了显著进展,并提出了更多领域探索和应用的激动人心的方向。
Nov, 2023
本研究提出一种新的双阶段训练方法,可利用易获得的数据集和预训练的 text-to-image(T2I)模型,生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频,同时保持了预训练 T2I 模型的编辑和概念构成能力。
Apr, 2023
通过使用基于扩散模型建立的噪声 - 视频映射,由搜索 - 反转流程逼近文本输入的最佳噪声,同时通过一个语义保持改写器来丰富文本提示,实现文本到视频模型的有效优化。
该研究提出一种名为 Make-A-Video 的方法,利用文本 - 图像生成的进展,从而实现文本 - 视频的生成,通过对时空模块的研究,提高了空间和时间的分辨率和文本的保真度并取得了最新的成果。
Sep, 2022
探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割 (R-VOS) 任务的假设,介绍了一个名为 “VD-IT” 的新框架,结合了预训练的 T2V 模型,利用文本信息作为条件输入,确保时间上的语义一致性,进一步加入图像标记作为补充文本输入,丰富特征集合以生成详细和细腻的掩码,并且通过大量实验证明,与常用的基于图像 / 视频预训练任务的视频骨干网络(例如 Video Swin Transformer)相比,固定的生成 T2V 扩散模型在保持语义对齐和时间一致性方面具有更好的潜力,在现有的标准基准上,VD-IT 取得了非常有竞争力的结果。
Mar, 2024