可控的文本到三维生成:面对齐的高斯扩散
通过引入 MVControl 神经网络架构,我们成功地提出了一种能够增强现有预训练的多视角二维扩散模型并结合额外输入条件(如边缘图)的方法。通过我们的方法,实现了可控的多视角图像生成和视角一致的三维内容创作。
Nov, 2023
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即 Control3D,以增强用户的可控性。具体而言,我们通过改进的 2D 条件扩散模型(ControlNet)来引导作为 NeRF 参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
提出了 GaussCtrl,一种使用文本驱动的方法来编辑由 3D Gaussian Splatting (3DGS) 重建的 3D 场景。该方法首先通过使用 3DGS 渲染一系列图像,然后使用基于输入提示的预训练二维扩散模型 (ControlNet) 对这些图像进行编辑,从而优化 3D 模型。我们的主要贡献是多视角一致性编辑,使得能够同时编辑所有图像,而不像以前的方法那样需要逐个编辑图像并更新 3D 模型。这导致更快的编辑速度和更高的视觉质量。这是通过以下两个方面实现的:(a) 基于深度的编辑,通过利用天然一致的深度图加强了多视角图像之间的几何一致性。(b) 基于注意力的潜在代码对齐,通过在图像的潜在表示之间进行自注意力和跨视图注意力,使编辑图像的外观统一于多个参考视图。实验表明,与之前的最先进方法相比,我们的方法实现了更快的编辑速度和更好的视觉效果。
Mar, 2024
通过引入多视角 ControlNet 和强化学习模型 ControlDreamer,本研究在文本指导下实现了创意几何和风格的 3D 建模,同时提出了一个全面的 3D 风格编辑基准,证明该方法在质量和度量上优于现有的文本生成 3D 方法。
Dec, 2023
本篇论文提出了一种利用 3D geometry control 和 visual prompts 的扩展 diffusion models 生成图像的方法,可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。
Jun, 2023
提出了 CG3D 方法,通过使用显式高斯辐射场来生成可扩展的三维资产,解决了基于文本的三维生成的限制,能够产生详细的多物体场景,并通过使用显式表示构建指导框架,在对象组合和物理准确性方面展示了领先于现有模型的结果。
Nov, 2023
提出了一种可控的文本到三维头像生成方法 Text2Control3D,利用 ControlNet 生成视角感知图像,并通过交叉注意力注入可控的面部表情和外貌,通过高斯潜变量的低通滤波解决了视角不可知纹理问题,以及通过学习图片形变表构建三维头像。
Sep, 2023
Control3Diff 是结合扩散模型和 3D GAN 的 3D 扩散模型,其将潜在空间直观建模并允许通过控制输入快速生成 3D 图像。该方法在多个数据集中表现优秀,包括 FFHQ, AFHQ, and ShapeNet。
Apr, 2023
使用稀疏射线采样方法通过关键点监督,实现了在当前管道中显式注入来自检索参考对象的 3D 先验,以确保高质量和多样化的 3D 几何,同时保持 2D 扩散模型的生成质量和多视角一致性。
Mar, 2024
通过 DreamControl 的两阶段 2D-lifting 框架,实现了在 3D 生成中解决几何不一致性的 Janus 问题,并生成出几何一致性和纹理保真度都很高的高质量 3D 内容。
Dec, 2023