运动引导:基于可微运动估计的扩散图像编辑
本篇研究介绍了 self-guidance 这一新方法,通过指导扩散模型的内部表示,提供了对生成图像更强的控制力,可以从这些表示中提取对象的形状、位置和外观等属性,并使用它们来控制生成的采样,这种方法类似于分类器引导,但是不需要额外的模型或训练,作者演示了如何使用这种方法进行复杂的图像操作,如修改对象的位置或大小,合并图像中对象的外观和布局等,并证明了 self-guidance 还可以用于编辑真实图像。
Jun, 2023
通过使用预先训练的逆模型设计的损失,利用扩散模型的生成控制能力,我们引入了 Steered Diffusion,这是一个通用的框架,用于实现基于扩散模型的逼真零样本条件图像生成,以在推理时引导扩散模型的图像生成过程。我们的实验表明,与最先进的基于扩散的即插即用模型相比,我们的框架在多种任务上如修补、着色、文本引导的语义编辑和图像超分辨率方面有明显的定性和定量改进,同时增加了可忽略的额外计算成本。
Sep, 2023
我们提出了一种基于扩散模型的即时人体运动风格转移学习方法,通过几分钟的微调学习,可以将未知的风格转移到不同的内容运动中,且仅需要一个风格示例和以中立运动为主的文本到运动数据集(例如 HumanML3D)。
Mar, 2024
提出一种新的运动感知视频生成 (MoVideo) 框架,从视频深度和光流两个方面考虑运动,并通过稀疏 - 时间扩散模型生成视频深度和光流,然后在潜在空间中生成视频,最后利用光流对不同帧进行对齐和细化,实现了文本到视频和图像到视频生成中最先进的结果。
Nov, 2023
通过操作物体的关键点,引入了一种具有精确控制图像的关键点引导扩散概率模型(KDM)。我们提出了一个包含光流图的两阶段生成模型,作为中间输出,在图像和稀疏关键点之间实现了密集像素级的语义关系理解,从而实现更真实的图像生成。此外,光流的集成有助于调节顺序图像的帧间差异,展示了真实的顺序图像生成。通过多样的关键点条件的图像合成任务(包括面部图像生成、人体姿势合成和心脏超声图像预测),对 KDM 进行了评估,证明 KDM 相比最先进的模型提供了一致增强和照片般逼真的图像。
Jan, 2024
本文提出了基于物理学的指导,通过优化预测模型的性能指标来生成图像,并在 Stable Diffusion 中添加了阻力引导,以生成具有最小预测阻力系数的新型车辆图像。
Jun, 2023
本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion,并通过优化扩散模型潜在空间实现精确的空间控制。
Jun, 2023
Controllable generation of 3D human motions using MotionMix, a weakly-supervised diffusion model, achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks.
Jan, 2024
我们提出了 Pix2Gif,一种用于图像到 GIF(视频)生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题,我们以不同的方式解决了这个问题。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种提示的条件下空间转换源图像的特征。此外,我们引入了一个感知损失,确保变换后的特征图与目标图像保持相同的空间,以确保内容的一致性和连贯性。在模型训练准备阶段,我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据,该数据集提供了关于主题的时序变化的丰富信息。在预训练之后,我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示,还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。
Mar, 2024
本文提出了应用于人体动作合成的有向扩散模型的算法 GMD,并进行了大量实验验证,证明该算法在控制生成的动作的同时,显著提高了基于文本的运动生成的效果。
May, 2023