I2VGen-XL: 通过级联扩散模型实现高质量图像到视频的合成
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
使用 I4VGen 框架,通过文本到图像到视频的多阶段过程,生成了更具视觉逼真度和文本准确性的视频,并能有效提升现有图像到视频扩散模型的整体质量。
Jun, 2024
使用参考引导的潜在扩散方法,VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023
在 AI 驱动视频生成领域,本研究通过引入 I2V-Adapter 解决了将静态图像转化为动态视频序列的复杂挑战,保持了 T2I 模型的结构完整性和运动模块,并在保持空间细节的同时降低了可训练参数的需求,这一性能上的突破在创意应用中具备了广泛的适用性。
Dec, 2023
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
基于级联的视频扩散模型,Imagen Video 是一种文本有条件的视频生成系统,它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型,具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。
Oct, 2022
该研究论文提出了 LaVie,一个整合的视频生成框架,通过利用预训练的文本到图像模型作为基础,以学习高质量的文本到视频生成模型。通过引入简单的时间自注意机制以及联合图像 - 视频微调的过程,LaVie 能够生成视觉逼真且时间连贯的视频,并保留预训练 T2I 模型的创造性。经广泛实验证明,LaVie 在性能上取得了最先进的表现,并可用于不同的长视频生成和个性化视频合成应用。
Sep, 2023
Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.
Mar, 2024
使用扩散方法提升图像到视频的视觉一致性,通过引入空时注意力和从低频带噪声初始化的方式,生成高度一致的视频。同时,根据提出的方法进行了自动生成长视频和相机运动控制方面的拓展,并通过 I2V-Bench 进行了评估,结果表明 ConsistI2V 方法的优越性。
Feb, 2024