Shunyu Yao, Tzu Ming Harry Hsu, Jun-Yan Zhu, Jiajun Wu, Antonio Torralba...
TL;DR本文提出了一种名为 3D-SDN 的深度生成模型,该模型可以生成可解释的、富有表现力的、分离的场景表示,能够支持 3D 感知场景操作,并证明该模型比其 2D 版本表现更优秀。
Abstract
We aim to obtain an interpretable, expressive, and disentangled scene
representation that contains comprehensive structural and textural information
for each object. Previous scene representations learned by neural netw
本文利用可微分渲染器提取并分离生成模型中的 3D 知识,将生成对抗网络作为多视图数据生成器,使用现成的可微分渲染器训练逆向图形网络,并将训练好的逆向图形网络作为教师,将 GAN 的潜在向量分离为可解释的 3D 属性。我们的方法在现有数据集上对最先进的逆向图形网络进行定量和用户研究,并显示分离的 GAN 作为可控的 3D “神经渲染器”,补充传统的图形渲染器。
本研究利用迄今为止最新的神经辐射场技术,通过引入物体场组件从 2D 视野中学习 3D 空间中所有个体物体的独特代码,并引入反向查询算法以自由地操作学习场景表示中特定的 3D 物体形状,进而解决物体碰撞和视觉遮挡等关键问题,能够准确地从 2D 视野中分解和操作 3D 场景的研究方法被称为 DM-NeRF。