像素跳舞:高动态视频生成
提出了一种名为 “Dancing Avatar” 的方法,通过文本和姿势驱动,利用训练良好的 T2I 扩散模型生成逐帧人体运动视频,同时保持上下文相关性、人物外观一致性和背景连续性,实现生成具有出色质量的人类视频。
Aug, 2023
MagicVideo-V2 通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成流程中,可以生成具有出色保真度和平滑度的美观、高分辨率视频,在大规模用户评估中表现出比 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型更优秀的性能。
Jan, 2024
使用生成 AI 系统 Generative Disco,可以根据音乐的节奏生成音频反应的视频,并通过设计模式进行改进,纵向分为转换和保持,研究表明该系统易于使用且高度表现力,适用于专业人士和 AI 生成内容正在改变创作工作的领域。
Apr, 2023
通过 LivePhoto 系统,使用者可以通过文本描述来为感兴趣的图像添加动画效果,系统通过改进的生成器和设计的训练流程,实现了文本到视频的解码,进而实现了对视频的自定义。
Dec, 2023
提出了一种可控的视频生成框架 MimicMotion,通过引入自信姿势引导、基于姿势置信度的区域损失放大和渐进式潜在融合策略,实现了生成任意长度高质量视频的目标,并在各个方面显示出与之前方法相比的显著改进。
Jun, 2024
我们提出了一种对场景动态进行图像空间先验建模的方法,该先验是从包含自然振动运动(如树木、花朵、蜡烛和风中的衣物)的真实视频序列中提取的一系列运动轨迹学习得到的。通过一个经过训练的模型,我们使用一种频率协调扩散抽样过程来预测傅里叶域中每个像素长期运动表示,我们称之为神经随机运动纹理。这种表示可以转换为跨越整个视频的密集运动轨迹。结合基于图像的渲染模块,这些轨迹可以用于许多下游应用,例如将静止图像转换为无缝循环的动态视频,或者允许用户在真实图片中与物体进行真实交互。
Sep, 2023
我们提出了一种基于扩散的模型 MagicDance,用于处理具有挑战性的人类舞蹈视频中的 2D 人体动作和面部表情转换。通过预训练外观控制块和微调外观 - 姿势 - 关节点控制块的两阶段训练策略,我们旨在在保持身份不变的同时生成任何目标身份驱动的人类舞蹈视频。
Nov, 2023
我们提出了 Pix2Gif,一种用于图像到 GIF(视频)生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题,我们以不同的方式解决了这个问题。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种提示的条件下空间转换源图像的特征。此外,我们引入了一个感知损失,确保变换后的特征图与目标图像保持相同的空间,以确保内容的一致性和连贯性。在模型训练准备阶段,我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据,该数据集提供了关于主题的时序变化的丰富信息。在预训练之后,我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示,还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。
Mar, 2024