细粒度开放域图像动画与运动引导
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
Sep, 2023
在计算机视觉中,从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法,能够实现对可移动区域的运动方向和速度的精确控制,同时在保持内容、场景和动作协调一致性的同时生成长度超过 100 帧的长时间视频。
May, 2024
建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D,并设计一种新的文本生成运动模型 FineMotionDiffuse,以更好地生成空间 / 时间上的综合动作。
Mar, 2024
本文描述了一种基于自监督学习的框架,可以将一个源图像中的对象根据驱动视频的运动进行动画处理,而不需要使用任何注释或有关特定对象的先前信息。使用一个经过训练的视频集合,我们的方法可以应用于此类对象的任何对象。
Feb, 2020
提出了一种基于用户点击和短动作提示的实用框架 Follow-Your-Click,用于实现图像动画生成,具备比现有方法更简单精确的用户控制和更好的生成性能。
Mar, 2024
通过使用导向梯度的扩散模型生成图像,我们提出了一种零样本技术 —— 运动导向,它允许用户指定复杂的运动场并精确编辑图像中对象的布局、位置、姿态和形状。通过同时从扩散模型中采样和引导样本以实现低导向损失,我们可以获得经过运动编辑的高质量图像。
Jan, 2024
我们提出了一种对场景动态进行图像空间先验建模的方法,该先验是从包含自然振动运动(如树木、花朵、蜡烛和风中的衣物)的真实视频序列中提取的一系列运动轨迹学习得到的。通过一个经过训练的模型,我们使用一种频率协调扩散抽样过程来预测傅里叶域中每个像素长期运动表示,我们称之为神经随机运动纹理。这种表示可以转换为跨越整个视频的密集运动轨迹。结合基于图像的渲染模块,这些轨迹可以用于许多下游应用,例如将静止图像转换为无缝循环的动态视频,或者允许用户在真实图片中与物体进行真实交互。
Sep, 2023
我们提出了 Pix2Gif,一种用于图像到 GIF(视频)生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题,我们以不同的方式解决了这个问题。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种提示的条件下空间转换源图像的特征。此外,我们引入了一个感知损失,确保变换后的特征图与目标图像保持相同的空间,以确保内容的一致性和连贯性。在模型训练准备阶段,我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据,该数据集提供了关于主题的时序变化的丰富信息。在预训练之后,我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示,还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。
Mar, 2024
MOFA-Video 通过使用各种额外的可控信号(例如人类标志物参考、手动轨迹以及另一个提供的视频)或其组合,从给定的图像生成视频。MOFA-Video 不同于先前只能在特定运动范围内工作或显示弱控制能力的方法,为了实现我们的目标,我们设计了几个领域感知的运动适配器(即 MOFA-Adapters)来控制视频生成流程中生成的运动。对于 MOFA-Adapters,我们首先考虑视频的时间运动一致性,并从给定的稀疏控制条件生成稠密运动流,然后将给定图像的多尺度特征包装为稳定视频扩散生成的引导特征。我们分别对手动轨迹和人类标志物进行了两个运动适配器的训练,因为它们都包含有关控制的稀疏信息。在训练之后,不同域中的 MOFA-Adapters 也可以一起工作以实现更可控的视频生成。
May, 2024