May, 2024

4D 全景场景图生成

TL;DR在本文中,我们介绍了一种名为 4D Panoptic Scene Graph(PSG-4D)的新表示方法,用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集,并提出了 PSG4DFormer 模型,该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验,表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后,我们提供了一个真实世界的应用示例,以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。