运动引导：基于可微运动估计的扩散图像编辑

Jan, 2024

运动引导：基于可微运动估计的扩散图像编辑

Motion Guidance: Diffusion-Based Image Editing with Differentiable Motion Estimators

Daniel Geng, Andrew Owens

TL;DR通过使用导向梯度的扩散模型生成图像，我们提出了一种零样本技术 —— 运动导向，它允许用户指定复杂的运动场并精确编辑图像中对象的布局、位置、姿态和形状。通过同时从扩散模型中采样和引导样本以实现低导向损失，我们可以获得经过运动编辑的高质量图像。

Abstract

diffusion models are capable of generating impressive images conditioned on text descriptions, and extensions of these models allow users to edit images at a relatively coarse scale. However, the ability to precisely edit the layout, position, pose, and shape of objects in images with

diffusion models motion guidance dense motion fields optical flow network motion-edited image

发现论文，激发创造

扩散自导式可控图片生成

本篇研究介绍了 self-guidance 这一新方法，通过指导扩散模型的内部表示，提供了对生成图像更强的控制力，可以从这些表示中提取对象的形状、位置和外观等属性，并使用它们来控制生成的采样，这种方法类似于分类器引导，但是不需要额外的模型或训练，作者演示了如何使用这种方法进行复杂的图像操作，如修改对象的位置或大小，合并图像中对象的外观和布局等，并证明了 self-guidance 还可以用于编辑真实图像。

Jun, 2023

引导扩散：一种泛化的插拔式条件图像合成框架

通过使用预先训练的逆模型设计的损失，利用扩散模型的生成控制能力，我们引入了 Steered Diffusion，这是一个通用的框架，用于实现基于扩散模型的逼真零样本条件图像生成，以在推理时引导扩散模型的图像生成过程。我们的实验表明，与最先进的基于扩散的即插即用模型相比，我们的框架在多种任务上如修补、着色、文本引导的语义编辑和图像超分辨率方面有明显的定性和定量改进，同时增加了可忽略的额外计算成本。

Sep, 2023

利用扩散模型进行即时样式迁移的学习：一种语义引导方法

我们提出了一种基于扩散模型的即时人体运动风格转移学习方法，通过几分钟的微调学习，可以将未知的风格转移到不同的内容运动中，且仅需要一个风格示例和以中立运动为主的文本到运动数据集（例如 HumanML3D）。

Mar, 2024

MoVideo：使用扩散模型的运动感知视频生成

提出一种新的运动感知视频生成 (MoVideo) 框架，从视频深度和光流两个方面考虑运动，并通过稀疏 - 时间扩散模型生成视频深度和光流，然后在潜在空间中生成视频，最后利用光流对不同帧进行对齐和细化，实现了文本到视频和图像到视频生成中最先进的结果。

Nov, 2023

基于关键点引导的可变形图像操作使用扩散模型

通过操作物体的关键点，引入了一种具有精确控制图像的关键点引导扩散概率模型（KDM）。我们提出了一个包含光流图的两阶段生成模型，作为中间输出，在图像和稀疏关键点之间实现了密集像素级的语义关系理解，从而实现更真实的图像生成。此外，光流的集成有助于调节顺序图像的帧间差异，展示了真实的顺序图像生成。通过多样的关键点条件的图像合成任务（包括面部图像生成、人体姿势合成和心脏超声图像预测），对 KDM 进行了评估，证明 KDM 相比最先进的模型提供了一致增强和照片般逼真的图像。

Jan, 2024

基于拖曳引导的车辆图像生成扩散模型

本文提出了基于物理学的指导，通过优化预测模型的性能指标来生成图像，并在 Stable Diffusion 中添加了阻力引导，以生成具有最小预测阻力系数的新型车辆图像。

Jun, 2023

DragDiffusion：利用扩散模型进行交互式基于点的图像编辑

本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion，并通过优化扩散模型潜在空间实现精确的空间控制。

Jun, 2023

MotionMix：无监督扩散生成可控运动

Controllable generation of 3D human motions using MotionMix, a weakly-supervised diffusion model, achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks.

Jan, 2024

Pix2Gif: 基于动态扩散的 GIF 生成

我们提出了 Pix2Gif，一种用于图像到 GIF（视频）生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题，我们以不同的方式解决了这个问题。为了确保模型遵循运动引导，我们提出了一种新的运动引导变形模块，以在两种提示的条件下空间转换源图像的特征。此外，我们引入了一个感知损失，确保变换后的特征图与目标图像保持相同的空间，以确保内容的一致性和连贯性。在模型训练准备阶段，我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据，该数据集提供了关于主题的时序变化的丰富信息。在预训练之后，我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示，还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。

Mar, 2024

通过引导式扩散模型实现可控人体动作合成

本文提出了应用于人体动作合成的有向扩散模型的算法 GMD，并进行了大量实验验证，证明该算法在控制生成的动作的同时，显著提高了基于文本的运动生成的效果。

May, 2023