InseRF: 文本驱动的神经三维场景中物体插入生成
Text2NeRF 是一种基于 NeRF 模型以自然语言描述为输入的 3D 场景生成方法,利用预训练的文本到图像扩散模型和单目深度估计方法约束 NeRF 模型以保持内容和几何一致,同时使用逐步场景修复和更新策略保证场景视角一致性。实验结果表明该方法能够生成高保真度,多视角一致性和多样性的真实感 3D 场景。
May, 2023
ZIGNeRF 是一种基于 Zero-shot GAN 反演和新颖的转换器进行图像生成的模型,其可以从单个输入图像生成多视图图像,分离对象与背景并实现 360 度旋转或深度和水平平移。
Jun, 2023
提出了一种名为 DITTO-NeRF 的新型流水线,用于从文本提示或单个图像生成高质量的 3D NeRF 模型,并通过逐步重建规模、角度和遮罩等方案来解决 Image-to-3D 方法的低对应性和多视图一致性的问题,在保留微小边界角度信息的情况下,实现对 NeRF 模型的高保真度和多样性重建。
Apr, 2023
本研究提出了一种名为 InpaintNeRF360 的框架,通过自然语言指令的帮助,利用可提示分割模型对 NeRF 场景中缺失的区域进行修复。该方法应用了多个视角的分割以保证视角的一致,同时还利用感知先验进行后续的修整以确保视觉真实性并增强了无界面的面与正面场景的灵活性。
May, 2023
我们提出了一种 NeRF 编辑框架 NeRF-Insert,允许用户以灵活的控制水平进行高质量的本地编辑。与先前依赖于图像到图像模型的工作不同,我们将场景编辑视为一种修补问题,鼓励保持全局结构的场景。此外,尽管大多数现有方法仅使用文本提示来调整编辑,我们的框架接受不同模态的输入组合作为参考,包括图像、CAD 模型和二进制图像掩码来指定一个 3D 区域。我们使用通用图像生成模型从多个视点修复场景,并将本地编辑提升为与原始 NeRF 保持一致的 3D 编辑。与先前方法相比,我们的结果表现出更好的视觉质量,并与原始 NeRF 保持更强的一致性。
Apr, 2024
通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图,然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D,一种新颖的方法,以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明,我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产,比之前需要 1 到 10 小时的基于优化的方法快两个数量级。
Nov, 2023
利用文本驱动的 3D 场景生成技术,在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复,同时结合查询和聚合全局 3D 信息来生成高质量的新内容,并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。
Mar, 2024
SIGNeRF 是一种快速和可控的 NeRF 场景编辑和场景整合对象生成的新方法,通过图像扩散模型的深度条件机制,在一次迭代中基于参考图像集合对原始 NeRF 进行更新和改进,从而实现三维一致性视图生成。
Jan, 2024
通过多视角草图引导的文本到 3D 生成框架,使用预训练的 2D 扩散模型对神经辐射场进行优化,以实现从草图到生成 3D 场景的灵活控制。
Jan, 2024
本文介绍了一种新颖的方法,通过将 2D 扩散模型提炼为学习的 3D 场景表示(例如 NeRF),对给定的有掩模的多视图图像进行 3D 区域修补。
Dec, 2023