Ajay Jain, Ben Mildenhall, Jonathan T. Barron, Pieter Abbeel, Ben Poole
TL;DRDream Fields 提出了一种结合神经渲染和多模态图像和文本表示的方法,能够通过自然语言描述合成各种几何形状和颜色的 3D 对象。
Abstract
We combine neural rendering with multi-modal image and text representations
to synthesize diverse 3D objects solely from natural language descriptions. Our
method, dream fields, can generate the geometry and colo
Text2NeRF 是一种基于 NeRF 模型以自然语言描述为输入的 3D 场景生成方法,利用预训练的文本到图像扩散模型和单目深度估计方法约束 NeRF 模型以保持内容和几何一致,同时使用逐步场景修复和更新策略保证场景视角一致性。实验结果表明该方法能够生成高保真度,多视角一致性和多样性的真实感 3D 场景。
通过最新的生成模型,提出了一种名为 LucidDreaming 的有效管道,能够对 3D 生成进行精细控制,只需要最少的 3D 边界框输入,可以通过简单的文本提示使用大型语言模型推断,通过渲染和优化对象实现对象的分开生成,与基准方法相比,实现了更高水平的 3D 内容对齐,并提供了一个带有 3D 边界框的数据集,用于评估 3D 空间可控性。