Motion-I2V: 显式运动建模的一致且可控的图像到视频生成
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
使用扩散方法提升图像到视频的视觉一致性,通过引入空时注意力和从低频带噪声初始化的方式,生成高度一致的视频。同时,根据提出的方法进行了自动生成长视频和相机运动控制方面的拓展,并通过 I2V-Bench 进行了评估,结果表明 ConsistI2V 方法的优越性。
Feb, 2024
在 AI 驱动视频生成领域,本研究通过引入 I2V-Adapter 解决了将静态图像转化为动态视频序列的复杂挑战,保持了 T2I 模型的结构完整性和运动模块,并在保持空间细节的同时降低了可训练参数的需求,这一性能上的突破在创意应用中具备了广泛的适用性。
Dec, 2023
通过将目标 RGB 像素分解成空间内容和时间运动两个不同的组成部分,我们提出了一种解决传统 RGB 像素空间方法中涉及建模动作一致性和视觉连贯性限制的新方法。通过显式建模时间运动并将其应用于起始图像,我们改进了生成视频的时间一致性,减少了空间冗余,突出了时间细节。大量实验证实了我们的方法相对于大多数最先进的方法在效果和效率上的卓越性能。
Nov, 2023
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
这篇论文提出了一种一致的视频到视频合成框架,通过同时利用源视频中的空间条件和时间光流线索,处理流程中的不完美估计并实现了与现有 I2I 模型的无缝集成、高效和高质量视频合成。
Dec, 2023
提出了 I2VGen-XL 的级联方法,通过将两个因素解耦并利用静态图像作为关键指导,能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。
Nov, 2023
从单张图片生成视频序列的 PoseAnimate 是一种新颖的零样本人物动画框架,通过将多样化的姿势信号整合到条件嵌入中以保持人物独立内容并维持动作的精确对齐,增强了时序一致性、保留了人物身份特征和复杂背景细节以及通过解耦角色和背景改善动画精度。实验结果表明,该方法在人物一致性和细节保真度方面优于现有的基于训练的方法,并且在所生成动画中始终保持较高水平的时序一致性。
Apr, 2024
提出一种新的运动感知视频生成 (MoVideo) 框架,从视频深度和光流两个方面考虑运动,并通过稀疏 - 时间扩散模型生成视频深度和光流,然后在潜在空间中生成视频,最后利用光流对不同帧进行对齐和细化,实现了文本到视频和图像到视频生成中最先进的结果。
Nov, 2023
提出了一种名为 TI2V 的新的视频生成任务,即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器,其中包含一种创新的运动锚(MA)结构,以存储外观 - 运动对齐表示,通过三维轴向变压器与给定图像交互,支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。
Dec, 2021