CVPRNov, 2023

全景视频场景图生成

TL;DR通过建立综合的真实世界视觉感知系统,我们提出并研究了一个称为全景场景图生成(PVSG)的新问题。PVSG 与现有的视频场景图生成(VidSGG)问题相关,后者侧重于视频中的人与物体之间的时间交互,并基于边界框进行实体识别。然而,边界框在检测非刚性物体和背景方面的局限性常常导致 VidSGG 遗漏关键细节,而 PVSG 则要求场景图中的节点由更精确的像素级分割掩码实体识别,以促进整体场景理解。为了推动这一新领域的研究,我们贡献了 PVSG 数据集,其中包含 400 个视频(289 个第三人称视频 + 111 个自我中心视频),包含 150K 帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法,并分享了未来工作的有用设计实践。