全景视频场景图生成

CVPRNov, 2023

Panoptic Video Scene Graph Generation

Jingkang Yang, Wenxuan Peng, Xiangtai Li, Zujin Guo, Liangyu Chen...

TL;DR通过建立综合的真实世界视觉感知系统，我们提出并研究了一个称为全景场景图生成（PVSG）的新问题。PVSG 与现有的视频场景图生成（VidSGG）问题相关，后者侧重于视频中的人与物体之间的时间交互，并基于边界框进行实体识别。然而，边界框在检测非刚性物体和背景方面的局限性常常导致 VidSGG 遗漏关键细节，而 PVSG 则要求场景图中的节点由更精确的像素级分割掩码实体识别，以促进整体场景理解。为了推动这一新领域的研究，我们贡献了 PVSG 数据集，其中包含 400 个视频（289 个第三人称视频 + 111 个自我中心视频），包含 150K 帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法，并分享了未来工作的有用设计实践。

Abstract

Towards building comprehensive real-world visual perception systems, we propose and study a new problem called panoptic scene graph generation (PVSG). PVSG relates to the existing video scene graph generation (Vi

panoptic scene graph generation video scene graph generation bounded boxes pixel-level segmentation masks pvsg dataset

发现论文，激发创造

全景场景图生成

介绍了一项新的问题任务，即基于全景分割生成全景场景图（PSG）；创建了一个高质量 PSG 数据集用于基准测试，并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线；探讨了未来的挑战和发展方向。

Jul, 2022

4D 全景场景图生成

在本文中，我们介绍了一种名为 4D Panoptic Scene Graph（PSG-4D）的新表示方法，用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集，并提出了 PSG4DFormer 模型，该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验，表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后，我们提供了一个真实世界的应用示例，以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。

May, 2024

TextPSG: 从文本描述生成全景场景图

从纯文本描述中生成全景场景图，通过区域分组器、实体对齐器、段合并器和标签生成器构建无显式链接、无预定义概念集的场景理解框架，有效地提高了性能和鲁棒性。

Oct, 2023

视频全景分割

本文提出了一种名为 Video Panoptic Segmentation 的新型视觉识别任务，同时提出了两个视频全景数据集，以及一种 VPSNet 网络，在 VPQ 度量下，在 Cityscapes-VPS 和 VIPER 数据集上实现了最先进的结果。

Jun, 2020

弱监督视觉语义解析

本文提出了一个广义的场景图生成模型 —— 视觉语义解析，并基于动态、注意力机制的二分图传递框架设计了关注于图节点和边的视觉语义解析网络 (VSPNet)，同时通过一种全新的图对齐算法，建立了第一个基于图的弱监督学习框架。大量实验证明 VSPNet 优于弱监督基准，而且速度是基准的数倍，因此是训练时效和性能平衡的一个不错的选择。

Jan, 2020

PVUW 2024 挑战赛三等奖解决方案：视频全景分割

通过引入综合方法，基于 DVIS++ 模型和查询式集合的补充技术，我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数，并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。

Jun, 2024

基于分割的场景图生成

该论文提出了第一个像素级分割 - 基于场景图生成的框架，并通过辅助数据集的转移学习和多任务学习解决了目标场景图数据集中缺乏分割标注的问题，其中引入了基于语义相似性权重的线性组合来表达目标对象的分割掩模，并引入了新颖的高斯注意机制实现像素级关系预测，并且该框架支持端到端可训练。

Apr, 2021

从像素到图形：利用视觉语言模型进行开放式场景图生成

基于序列生成的新型开放词汇的场景图生成框架，通过使用视觉语言预训练模型和显式关系建模知识，实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。

Apr, 2024

2024 年 PVUW 挑战赛第二名解决方案：视频全景分割

我们提出了一个强大的整合视频全景分割解决方案，该方案基于 DVIS ++ 框架生成初始掩模，然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终，我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分，分别在开发和测试阶段排名第二。

Jun, 2024

视频场景图生成的元空间时偏差校正

本研究提出了一种基于元学习的 Meta Video Scene Graph Generation (MVSGG) 框架，用于从支持集和若干查询集中构建训练数据并通过元训练和测试过程指导模型学习以针对空间时间条件偏差进行泛化，以提高视频场景图生成的泛化性能。

Jul, 2022