将 3D 几何控制添加到扩散模型中
Control3Diff 是结合扩散模型和 3D GAN 的 3D 扩散模型,其将潜在空间直观建模并允许通过控制输入快速生成 3D 图像。该方法在多个数据集中表现优秀,包括 FFHQ, AFHQ, and ShapeNet。
Apr, 2023
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即 Control3D,以增强用户的可控性。具体而言,我们通过改进的 2D 条件扩散模型(ControlNet)来引导作为 NeRF 参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
我们介绍了 3DiffTection,这是一种用于从单张图像中进行 3D 物体检测的最先进方法,利用了来自 3D 感知扩散模型的特征。通过两种专门的调整策略:几何和语义,我们的方法弥合了这些差距。通过我们的方法,我们获得了为 3D 检测量身定制的 3D 感知特征,以及在识别跨视角点对应方面表现出色的能力。
Nov, 2023
本研究主要关注在控制性文本生成 3D 场景方面的多视图控制网络架构,该网络结合额外的输入条件,如边缘、深度、法线和素描图,使用局部和全局嵌入来控制基础扩散模型,并通过优化实现 3D 生成,最终实现了高质量、可控的 3D 内容的生成。
Mar, 2024
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024
本文提出 GeoDiffusion,一种简单的框架,可以将各种几何条件灵活地转化为文本提示,为预训练的文本到图像扩散模型赋能高质量检测数据生成,实验证明它在维护更快的训练时间的同时优于先前的 L2I 方法。
Jun, 2023
通过引入多视角 ControlNet 和强化学习模型 ControlDreamer,本研究在文本指导下实现了创意几何和风格的 3D 建模,同时提出了一个全面的 3D 风格编辑基准,证明该方法在质量和度量上优于现有的文本生成 3D 方法。
Dec, 2023
本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法,并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022
本研究提出了一种新的扩散设置,可以仅通过 2D 图像监督就可以进行端到端的训练,同时提出的图像形成模型将模型内存与空间内存分离,以应对 3D 扩散模型在训练上遇到的问题,并在 CO3D 数据集上进行的实验表明,该方法是可扩展的,具有稳健性,与现有的 3D 生成建模方法在样本质量和保真度方面相当竞争。
Mar, 2023
通过引入 MVControl 神经网络架构,我们成功地提出了一种能够增强现有预训练的多视角二维扩散模型并结合额外输入条件(如边缘图)的方法。通过我们的方法,实现了可控的多视角图像生成和视角一致的三维内容创作。
Nov, 2023