May, 2023

PanoContext-Former:基于 Transformer 的全景场景理解

TL;DR本文提出了一种使用深度先验的方法,从单个全景图中同时复原物体形状、定向边界框和三维房间布局,为了充分利用丰富的上下文信息,设计了一个基于 transformer 的上下文模块来预测场景各组成部分之间的表示和关系。实验表明,我们的方法在布局估计和三维物体检测方面优于先前的全景场景理解方法。同时,本文还引入了一个包括照片逼真的全景图、高保真深度图、精确注释的房间布局和定向物体边界框和形状的真实世界数据集。