GeoDiffuser:基于几何的扩散模型图像编辑
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024
本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法,并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022
本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion,并通过优化扩散模型潜在空间实现精确的空间控制。
Jun, 2023
本文提出 GeoDiffusion,一种简单的框架,可以将各种几何条件灵活地转化为文本提示,为预训练的文本到图像扩散模型赋能高质量检测数据生成,实验证明它在维护更快的训练时间的同时优于先前的 L2I 方法。
Jun, 2023
本文介绍了一种基于 DragonDiffusion 的图像编辑方法,通过构建一个分类器指导策略,将编辑信号转化为梯度并利用特征对应损失修改分布式模型的中间表示,在保持原图像和编辑结果的一致性的同时,实现各种编辑模式,诸如物体移动、物体缩放、物体外观替换和内容拖动。
Jul, 2023
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022
我们介绍了 3DiffTection,这是一种用于从单张图像中进行 3D 物体检测的最先进方法,利用了来自 3D 感知扩散模型的特征。通过两种专门的调整策略:几何和语义,我们的方法弥合了这些差距。通过我们的方法,我们获得了为 3D 检测量身定制的 3D 感知特征,以及在识别跨视角点对应方面表现出色的能力。
Nov, 2023
SceneDiffuser 是一个用于 3D 场景理解的条件生成模型,通过扩散过程,联合制定了场景感知生成、基于物理的优化和面向目标的规划模块,相对于之前的模型,具有内在的场景感知、基于物理的设计器和面向目标的设计等优点,在人体姿态和运动生成、灵巧握持生成、三维导航路径规划和机器人臂运动规划等任务上表现了极大的潜力。
Jan, 2023
本文提出了一种基于条件扩散模型的语义图像编辑方法 DiffEdit,能够自动生成需要编辑的图像区域的遮罩,并利用潜在推理保留感兴趣区域的内容,该方法在 ImageNet 数据集上实现了最先进的编辑表现。
Oct, 2022
我们提出了 DiffEditor 方法,利用图像提示和文本提示来改善细粒度的图像编辑,通过在扩散采样中引入局部组合的随机微分方程 (SDE),梯度引导和时间旅行策略,我们的方法在各种细粒度图像编辑任务中取得了最先进的性能。
Feb, 2024