通过布局学习实现解耦的 3D 场景生成

Feb, 2024

通过布局学习实现解耦的 3D 场景生成

Disentangled 3D Scene Generation with Layout Learning

Dave Epstein, Ben Poole, Ben Mildenhall, Alexei A. Efros, Aleksander Holynski

TL;DR我们介绍了一种通过大型预训练的文本到图像模型实现对三维场景进行解缠的方法。我们的关键观点是，通过重新排列具有空间先验的三维场景的部分，可以发现物体的存在，并且这些重排后的场景仍然是原场景的有效配置。具体而言，我们的方法从头开始联合优化多个 NeRFs，每个 NeRF 代表一个物体，以及一组将这些物体合成为场景的布局。然后，我们鼓励这些合成的场景在图像生成器中符合分布。我们展示了尽管简单，我们的方法成功地生成了分解为个体物体的三维场景，从而在文本到三维内容创建中实现了新的功能。请参阅我们的项目页面，查看更多结果和交互式演示。

Abstract

We introduce a method to generate 3d scenes that are disentangled into their component objects. This disentanglement is unsupervised, rely

3d scenes disentangled unsupervised text-to-image model nerfs

发现论文，激发创造

用单目图像学习具有解缠几何和外观的 3D 生成模型

本文提出了一种基于 3D 生成模型的非刚性可变形场景表达方法，通过联合学习规范模型及其变形，并使用姿态正则化损失来改善模型的场景与摄影视角的分离性，同时还可以嵌入真实图像中并进行编辑。

Mar, 2022

通过自监督静态 - 动态解缠缚，从单幅图像中查看 3D 物体

本文提出一种无监督学习方法，通过观察未标记的多视角视频，学习将一个包含多种物体的复杂场景的单幅图像观察映射到一个三维神经场景表示，可以将该表示分解为可移动和不可移动的部分，并通过神经渲染进行自监督训练，从而实现基于对象的三维表示、新视角合成、实例分割和三维边界框预测等多种下游任务，并通过对象操作（如删除、插入和刚体运动）实现场景编辑。

Jul, 2022

自然图像中的无监督生成式三维形状学习

本文介绍了一种从自然图像中学习生成 3D 形状的生成模型的全面无监督方法，其中利用 GAN 等深度学习技术实现，从而生成出真实的三维图像，实现了从二维图像向三维图像的转换。

Oct, 2019

通过无监督的几何蒸馏解开内容和风格

本文提出了一种创新的框架，利用两个分支的自编码器来学习内容和风格分离的表征，并通过多个损失约束辅助无监督学习，最终生成清晰、高质量的 256*256 分辨率的图片。

May, 2019

学习三维物体的形状和布局，无需三维监督

本研究提出了一种基于多视图图像的方法，用于识别三维场景的对象形状和布局，通过在大型数据集上的实验，证明该方法可扩展应用于现实图像，并与依赖三维信息的方法相比，表现得更好。

Jun, 2022

城市建筑师：带有布局先验的可操控的三维城市场景生成

通过引入一种组合式 3D 布局表示方法到文本转 3D 范式中的本文，克服了在大规模城市范围内扩展这一方法的局限性，并且成功地将文本转 3D 技术应用于覆盖超过 1000m 行驶距离的大尺度城市场景，同时展示了可调控城市场景生成的强大能力。

Apr, 2024

解耦 3D 原型网络以进行少样本概念学习

本研究提出了一种神经网络架构，将 RGB-D 图像分离为物体的形状和样式以及背景场景的地图，并探索了它们在少样本三维物体检测和少样本概念分类的应用。

Nov, 2020

DisCoScene: 控制性空间解耦生成光辐射场用于三维感知场景合成

本研究针对现有 3D 感知图像合成的方法过于依赖单一范式物体生成，无法胜任包含多种物体的复杂场景的问题，提出了 DisCoScene：一种适用于高质量、可控的场景合成的 3D 感知生成模型。

Dec, 2022

视觉物体网络：利用解缠的三维表示进行图像生成

通过对经典图形渲染管道的启发，我们提出了视觉对象网络（VON）—— 一种生成对象自然图像的新型生成模型，它生成具有解缠的 3D 表示的对象自然图像，让图像不仅具备比最先进的 2D 图像合成方法更加逼真的外观，还能进行各种 3D 操作。

Dec, 2018

NaviNeRF: 基于 NeRF 的潜在语义导航的 3D 表征解缠

本研究提出了一种名为 NaviNeRF 的新方法，通过使用可微分的 3D 表示形式 neural radiance fields 和自监督导航，对 3D 表示形式进行细粒度的解缠。实验表明，该方法在 3D 表示解缠方面展现了卓越的能力，并且与使用语义或几何先验的编辑导向模型的表现相当。

Apr, 2023