无需重新训练的基于文本的 3D 场景编辑

Sep, 2023

无需重新训练的基于文本的 3D 场景编辑

Text-driven Editing of 3D Scenes without Retraining

Shuangkang Fang, Yufeng Wang, Yi Yang, Yi-Hsuan Tsai, Wenrui Ding...

TL;DR我们引入了一种名为 DN2N 的文本驱动编辑方法，使用现成的基于文本的图像编辑模型修改 3D 场景图片，并提出了一种去除噪声扰动的训练数据生成方法，以及交叉视图正则化项来帮助泛化 NeRF 模型，实现了友好、直观和实用的用户编辑体验，并实现了多种编辑类型的效果。

Abstract

Numerous diffusion models have recently been applied to image synthesis and editing. However, →

diffusion models image synthesis editing 3d scenes text-driven editing method

发现论文，激发创造

ED-NeRF：使用潜空间进行高效的文本导向 3D 场景编辑

我们介绍了一种名为 ED-NeRF 的创新的三维 NeRF 编辑方法，通过将真实场景嵌入潜变扩散模型的潜入空间中，通过独特的细化层，实现了更快速和更易编辑的 NeRF 骨干，同时我们提出了一种改进的针对编辑的损失函数，这一损失函数在编辑目的上优于传统的得分扩散采样损失。实验结果表明，ED-NeRF 在更快的编辑速度和更好的输出质量方面胜过现有的最先进的三维编辑模型。

Oct, 2023

DATENeRF: 基于深度的文本编辑技术

利用拓展到神经辐射场（NeRF）的编辑技术来编辑场景是复杂的，本文提出了利用 NeRF 场景的几何信息作为桥梁来整合 2D 编辑的方法，并引入了一种填充方法来确保对不同图像的 2D 编辑具有鲁棒性。结果表明，该方法比现有的文本驱动 NeRF 场景编辑方法实现了更加一致、逼真和详细的编辑效果。

Apr, 2024

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

高效 NeRF2NeRF：利用多视角对应增强的扩散模型简化文本驱动的 3D 编辑

通过将对应关系正则化引入扩散模型，可以显著加快 3D 编辑过程，该方法使得在大多数情况下与基线方法相比速度提高了 10 倍，并在 2 分钟内完成了 3D 场景的编辑。

Dec, 2023

Text2NeRF: 使用神经辐射场进行文本驱动的 3D 场景生成

Text2NeRF 是一种基于 NeRF 模型以自然语言描述为输入的 3D 场景生成方法，利用预训练的文本到图像扩散模型和单目深度估计方法约束 NeRF 模型以保持内容和几何一致，同时使用逐步场景修复和更新策略保证场景视角一致性。实验结果表明该方法能够生成高保真度，多视角一致性和多样性的真实感 3D 场景。

May, 2023

3D-SceneDreamer: 文本驱动的 3D 一致场景生成

利用文本驱动的 3D 场景生成技术，在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复，同时结合查询和聚合全局 3D 信息来生成高质量的新内容，并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。

Mar, 2024

混合 - NeRF：神经辐射场中基于文本的局部编辑

为解决文本驱动的本地化编辑 3D 对象的困难，我们提出了一种基于 NeRF 模型的新方法 Blending-NeRF，它包括两个 NeRF 网络：预训练 NeRF 和可编辑 NeRF，并引入了新的混合操作来允许 Blending-NeRF 对局部文本定位的目标区域进行适当的编辑。通过使用预训练的视觉 - 语言对齐模型 CLIP，我们指导 Blending-NeRF 添加具有不同颜色和密度的新对象，修改纹理并移除原始对象的部分。我们的实验证明，Blending-NeRF 能够从各种文本提示中产生自然而局部编辑的 3D 对象。

Aug, 2023

使用 2D 扩散模型对 3D 神经辐射场进行编辑的 Edit-DiffNeRF

本文提出了一种名为 Edit-DiffNeRF 的框架，通过对已经训练好的扩散模型的潜在语义空间进行微调以有效地合并这些指令，从而实现对 3D 场景的微调，同时通过多视图语义一致性损失确保在不同的视图中重建潜在的语义嵌入。

Jun, 2023

通过局部 - 全局迭代训练自定义你的 NeRF：自适应源驱动的三维场景编辑

本研究提出了一个名为 CustomNeRF 的模型，通过将文本描述或参考图像作为编辑提示，实现自适应源驱动的三维场景编辑任务。通过提出局部 - 全局迭代编辑（LGIE）训练方案来应对前景区域和多视角一致性等两个重要挑战。此外，还设计了一种基于类别先验的正则化方法，用于解决图像驱动编辑中不同视图之间的不一致性问题。广泛的实验结果表明，CustomNeRF 模型在文本和图像驱动的情景下能够产生精确的编辑结果。

Dec, 2023

Free-Editor: 零样本条件下的基于文本的 3D 场景编辑

提出了一种新颖的无需重新训练模型的 3D 场景编辑技术 Free-Editor，采用单视图编辑方案以避免多视角风格不一致问题，并使用 Edit Transformer 实现视图内一致性和视图间风格迁移，实现了快速且多样化的编辑能力。

Dec, 2023