DreamControl: 基于控制的文本到 3D 生成与 3D 自先
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即 Control3D,以增强用户的可控性。具体而言,我们通过改进的 2D 条件扩散模型(ControlNet)来引导作为 NeRF 参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
通过引入多视角 ControlNet 和强化学习模型 ControlDreamer,本研究在文本指导下实现了创意几何和风格的 3D 建模,同时提出了一个全面的 3D 风格编辑基准,证明该方法在质量和度量上优于现有的文本生成 3D 方法。
Dec, 2023
通过最新的生成模型,提出了一种名为 LucidDreaming 的有效管道,能够对 3D 生成进行精细控制,只需要最少的 3D 边界框输入,可以通过简单的文本提示使用大型语言模型推断,通过渲染和优化对象实现对象的分开生成,与基准方法相比,实现了更高水平的 3D 内容对齐,并提供了一个带有 3D 边界框的数据集,用于评估 3D 空间可控性。
Nov, 2023
提出了一种可控的文本到三维头像生成方法 Text2Control3D,利用 ControlNet 生成视角感知图像,并通过交叉注意力注入可控的面部表情和外貌,通过高斯潜变量的低通滤波解决了视角不可知纹理问题,以及通过学习图片形变表构建三维头像。
Sep, 2023
通过引入 OrientDream,这篇研究介绍了一种基于相机方向条件的框架,用于从文本提示生成高质量、具有一致多视图属性的 NeRF 模型,并达到比现有方法更快的优化速度。
Jun, 2024
利用文本驱动的 3D 场景生成技术,在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复,同时结合查询和聚合全局 3D 信息来生成高质量的新内容,并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。
Mar, 2024
通过引入 MVControl 神经网络架构,我们成功地提出了一种能够增强现有预训练的多视角二维扩散模型并结合额外输入条件(如边缘图)的方法。通过我们的方法,实现了可控的多视角图像生成和视角一致的三维内容创作。
Nov, 2023
通过结合三维几何先验和二维扩散先验,GeoDream 方法能够生成具有一致的三维几何结构的文本到三维模型,并提供更高分辨率、真实感的渲染和更好的语义一致性。
Nov, 2023
通过结合 2D 和 3D 扩散模型,Points-to-3D 提出了一种灵活的框架,将稀疏但自由可用的 3D 点引入文本到 3D 生成过程中,实现形状可控且更逼真的 3D 生成。
Jul, 2023
利用预训练的 2D 大规模生成模型,我们提出了 DreamComposer,一个可灵活可扩展的框架,通过注入多视图条件来增强现有的视图感知扩散模型,以生成具有高保真度的具有多视图条件的新视图图像,并用于可控的 3D 物体重建和其他各种应用。
Dec, 2023