基于零样本文本引导的 Dream Fields 对象生成

CVPRDec, 2021

基于零样本文本引导的 Dream Fields 对象生成

Zero-Shot Text-Guided Object Generation with Dream Fields

Ajay Jain, Ben Mildenhall, Jonathan T. Barron, Pieter Abbeel, Ben Poole

TL;DRDream Fields 提出了一种结合神经渲染和多模态图像和文本表示的方法，能够通过自然语言描述合成各种几何形状和颜色的 3D 对象。

Abstract

We combine neural rendering with multi-modal image and text representations to synthesize diverse 3D objects solely from natural language descriptions. Our method, dream fields, can generate the geometry and colo

neural rendering multi-modal representations 3d object synthesis image-text models dream fields

发现论文，激发创造

Dream3D: 使用 3D 形状先验和文本到图像扩散模型进行零样本文本到三维合成

本文提出了 Dream3D 方法，将显式的三维形状先验引入 CLIP 导向的三维优化过程中，以生成高质量的三维形状。结合文本到图像扩散模型，Dream3D 能够生成精准而富有想象力的三维内容。

Dec, 2022

Text2NeRF: 使用神经辐射场进行文本驱动的 3D 场景生成

Text2NeRF 是一种基于 NeRF 模型以自然语言描述为输入的 3D 场景生成方法，利用预训练的文本到图像扩散模型和单目深度估计方法约束 NeRF 模型以保持内容和几何一致，同时使用逐步场景修复和更新策略保证场景视角一致性。实验结果表明该方法能够生成高保真度，多视角一致性和多样性的真实感 3D 场景。

May, 2023

以语言为驱动的姿态条件数据集更新用于神经辐射场中的对象融合

使用基于语言的方法，通过数据集更新对神经辐射场进行对象操作，将新的前景对象融合到给定的背景中，以生成包含对象和背景的视图一致的照片真实主场景。

Sep, 2023

文本和图像引导的 4D 场景生成的统一方法

通过使用扩散生成模型，我们提出了 Dream-in-4D 方法，可以有效地实现从文本和图像生成动态的 3D 场景，该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究，我们证明了与基线方法相比，我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示，我们的方法还可以轻松应用于可控的生成，其中外观由一个或多个图像定义，无需修改运动学习阶段。因此，我们的方法首次提供了一种统一的方法，用于文本到 4D、图像到 4D 和个性化 4D 生成任务。

Nov, 2023

DreamEditor: 使用神经场进行文本驱动的 3D 场景编辑

本文提出了 DreamEditor，一种使用文本提示对神经场进行编辑的新框架，用于场景重建，可以实现精确编辑神经场保持平滑的几何纹理，并且在定量和定性评估中明显超过以前的工作。

Jun, 2023

清醒梦：可控的物体中心三维生成

通过最新的生成模型，提出了一种名为 LucidDreaming 的有效管道，能够对 3D 生成进行精细控制，只需要最少的 3D 边界框输入，可以通过简单的文本提示使用大型语言模型推断，通过渲染和优化对象实现对象的分开生成，与基准方法相比，实现了更高水平的 3D 内容对齐，并提供了一个带有 3D 边界框的数据集，用于评估 3D 空间可控性。

Nov, 2023

RealFusion: 从单张图像中重建任意物体的 360° 重建

本文提出了一种基于神经辐射场的方法，通过使用已有的条件图像生成器引导其 “创造” 目标物体的新视图，通过 DreamFields 和 DreamFusion 的启发，将给定的输入视图、条件先验和其他正则化参数融合在一起，从而解决了从单张图像进行 360° 拍摄的问题，并在单眼 3D 建模重建中达到了最先进的效果。

Feb, 2023

LaTeRF: 标签和文本驱动的物体辐射场

本研究提出了 LaTeRF 方法，通过引入 “对象性” 概率，扩展 NeRF 公式，结合自然语言描述、点标签等信息从场景中提取出感兴趣的物体，并结合预训练的 CLIP 模型和可微分对象渲染器来修复物体的遮挡部分。实验结果表明该方法在合成和真实数据集上均能实现高保真物体提取。

Jul, 2022

A3D：扩散是否也梦想着 3D 对齐？

从几何对齐的角度解决了文本驱动的三维生成问题，通过优化文本嵌入的连续轨迹实现了对象对齐，展示了在几何编辑和对象混合等实际场景中的效率。

Jun, 2024

3D-SceneDreamer: 文本驱动的 3D 一致场景生成

利用文本驱动的 3D 场景生成技术，在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复，同时结合查询和聚合全局 3D 信息来生成高质量的新内容，并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。

Mar, 2024