TL;DR研究如何从 1 或多张图像中合成逼真的室内 3D 场景,采用了基于图像的 GAN 来直接映射成高分辨率的 RGB-D 图像,及在 VLN 训练中进行空间干扰以提高成功率。
Abstract
We study the problem of synthesizing immersive 3d indoor scenes from one or
more images. Our aim is to generate high-resolution images and videos from
novel viewpoints, including viewpoints that extrapolate far beyond the input
images while maintaining 3D consistency. Existing approach
本文提出了一种使用真实图像来训练、无需 3D 场景真值信息,通过可微分点云渲染器将潜在 3D 特征点云转换为目标视图输出图像,并通过细化网络解码来填补缺失区域的新型端到端模型,在测试时可以对潜在特征空间进行可解释的操作,可以生成高分辨率图像并推广到其他输入分辨率,将在 Matterport、Replica 和 RealEstate10K 数据集上优于基线和之前的工作。