GeoDiffuser：基于几何的扩散模型图像编辑

Apr, 2024

GeoDiffuser：基于几何的扩散模型图像编辑

GeoDiffuser: Geometry-Based Image Editing with Diffusion Models

Rahul Sajnani, Jeroen Vanbaar, Jie Min, Kapil Katyal, Srinath Sridhar

TL;DRGeoDiffuser 是一种优化为基础的方法，将常见的二维和三维基于图像的对象编辑功能统一为单一方法，通过将图像编辑操作视为几何变换，并将其直接合并到扩散模型的注意力层中隐式执行编辑操作，以实现保持对象风格并生成合理图像的目标函数进行训练 - free 优化方法。

Abstract

The success of image generative models has enabled us to build methods that can edit images based on text or other user input. However, these methods are bespoke, imprecise, require additional information, or are limited to only 2D image edits. We present →

image generative models geodiffuser 2d and 3d image-based object editing geometric transformations optimization-based method

发现论文，激发创造

扩散模型是几何评论者：使用预训练的扩散先验进行单图像三维编辑

提出一种新颖的图像编辑技术，可以在单幅图像上进行三维操作，如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型，实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑，突破了单幅图像三维感知编辑的可能性的局限。

Mar, 2024

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

DragDiffusion：利用扩散模型进行交互式基于点的图像编辑

本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion，并通过优化扩散模型潜在空间实现精确的空间控制。

Jun, 2023

将几何控制融入文本 - 图像扩散模型以通过文本提示进行高质量检测数据生成

本文提出 GeoDiffusion，一种简单的框架，可以将各种几何条件灵活地转化为文本提示，为预训练的文本到图像扩散模型赋能高质量检测数据生成，实验证明它在维护更快的训练时间的同时优于先前的 L2I 方法。

Jun, 2023

DragonDiffusion：在扩散模型上实现拖拽式操作

本文介绍了一种基于 DragonDiffusion 的图像编辑方法，通过构建一个分类器指导策略，将编辑信号转化为梯度并利用特征对应损失修改分布式模型的中间表示，在保持原图像和编辑结果的一致性的同时，实现各种编辑模式，诸如物体移动、物体缩放、物体外观替换和内容拖动。

Jul, 2023

RenderDiffusion：用于 3D 重建、修补与生成的图像扩散

本文提出了 RenderDiffusion，这是第一个用于 3D 生成和推断的扩散模型，使用仅有的单眼 2D 监督进行训练，并采用新颖的图像去噪架构进行中间的三维表示，以提供强烈归纳结构，同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion，展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外，我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。

Nov, 2022

3DiffTection：具有几何感知扩散特征的三维物体检测

我们介绍了 3DiffTection，这是一种用于从单张图像中进行 3D 物体检测的最先进方法，利用了来自 3D 感知扩散模型的特征。通过两种专门的调整策略：几何和语义，我们的方法弥合了这些差距。通过我们的方法，我们获得了为 3D 检测量身定制的 3D 感知特征，以及在识别跨视角点对应方面表现出色的能力。

Nov, 2023

基于扩散的 3D 场景生成、优化和规划

SceneDiffuser 是一个用于 3D 场景理解的条件生成模型，通过扩散过程，联合制定了场景感知生成、基于物理的优化和面向目标的规划模块，相对于之前的模型，具有内在的场景感知、基于物理的设计器和面向目标的设计等优点，在人体姿态和运动生成、灵巧握持生成、三维导航路径规划和机器人臂运动规划等任务上表现了极大的潜力。

Jan, 2023

基于扩散的语义图像编辑与掩模引导

本文提出了一种基于条件扩散模型的语义图像编辑方法 DiffEdit，能够自动生成需要编辑的图像区域的遮罩，并利用潜在推理保留感兴趣区域的内容，该方法在 ImageNet 数据集上实现了最先进的编辑表现。

Oct, 2022

DiffEditor：基于扩散的图像编辑中的准确性和灵活性增强

我们提出了 DiffEditor 方法，利用图像提示和文本提示来改善细粒度的图像编辑，通过在扩散采样中引入局部组合的随机微分方程 (SDE)，梯度引导和时间旅行策略，我们的方法在各种细粒度图像编辑任务中取得了最先进的性能。

Feb, 2024