Sketch2NeRF: 多视图草图引导的文本生成三维模型
Text2NeRF 是一种基于 NeRF 模型以自然语言描述为输入的 3D 场景生成方法,利用预训练的文本到图像扩散模型和单目深度估计方法约束 NeRF 模型以保持内容和几何一致,同时使用逐步场景修复和更新策略保证场景视角一致性。实验结果表明该方法能够生成高保真度,多视角一致性和多样性的真实感 3D 场景。
May, 2023
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即 Control3D,以增强用户的可控性。具体而言,我们通过改进的 2D 条件扩散模型(ControlNet)来引导作为 NeRF 参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
提出了一种可控的文本到三维头像生成方法 Text2Control3D,利用 ControlNet 生成视角感知图像,并通过交叉注意力注入可控的面部表情和外貌,通过高斯潜变量的低通滤波解决了视角不可知纹理问题,以及通过学习图片形变表构建三维头像。
Sep, 2023
利用文本驱动的 3D 场景生成技术,在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复,同时结合查询和聚合全局 3D 信息来生成高质量的新内容,并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。
Mar, 2024
我们通过使用扩散先验来改进已有的文本生成 3D 模型的技术,提出了一种新的训练方法,并应用了深度监督和密度场正则化来提高几何表示和图像质量。实验结果表明我们的方法在提高真实感和多视角一致性方面优于现有技术。
May, 2023
本文介绍了如何采用分数蒸馏技术,在以图像为操作空间的 NeRF 模型中利用潜空间分数生成三维对象。同时,还提出了一种利用草图风格引导的 Latent-NeRF 模型,增加了对生成过程的控制能力,并在此基础上进一步将文本和草图风格引导结合,为生成高质量纹理的三维对象提供了有效的实现方法。
Nov, 2022
利用拓展到神经辐射场(NeRF)的编辑技术来编辑场景是复杂的,本文提出了利用 NeRF 场景的几何信息作为桥梁来整合 2D 编辑的方法,并引入了一种填充方法来确保对不同图像的 2D 编辑具有鲁棒性。结果表明,该方法比现有的文本驱动 NeRF 场景编辑方法实现了更加一致、逼真和详细的编辑效果。
Apr, 2024
本文提出了一种名为 Edit-DiffNeRF 的框架,通过对已经训练好的扩散模型的潜在语义空间进行微调以有效地合并这些指令,从而实现对 3D 场景的微调,同时通过多视图语义一致性损失确保在不同的视图中重建潜在的语义嵌入。
Jun, 2023
SIGNeRF 是一种快速和可控的 NeRF 场景编辑和场景整合对象生成的新方法,通过图像扩散模型的深度条件机制,在一次迭代中基于参考图像集合对原始 NeRF 进行更新和改进,从而实现三维一致性视图生成。
Jan, 2024