Mar, 2024

场景脚本:用自回归结构化语言模型重建场景

TL;DR我们通过使用自回归的基于标记的方法直接生成完整场景模型的有序语言命令序列,引入了 SceneScript。我们的场景表示方法受到转换器和 LLMs 的最新成功的启发,并与常见的以网格、体素网格、点云或辐射场描述场景的传统方法不同。我们的方法使用场景语言编码器 - 解码器架构,直接从编码的视觉数据中推断结构化语言命令集。为了训练 SceneScript,我们生成并发布了一个名为 Aria Synthetic Environments 的大规模合成数据集,该数据集由 100,000 个高质量室内场景组成,并具有逼真的和真实标注的以自我为中心的场景漫游渲染。我们的方法在建筑布局估计方面具有最先进的结果,在 3D 物体检测方面具有竞争性的结果。最后,我们探讨了 SceneScript 的优势,即通过简单添加到结构化语言中轻松适应新命令,我们在粗糙的 3D 物体部分重建等任务中进行了说明。