公平排序与全景场景图生成的新模型

Jul, 2024

公平排序与全景场景图生成的新模型

A Fair Ranking and New Model for Panoptic Scene Graph Generation

Julian Lorenz, Alexander Pest, Daniel Kienzle, Katja Ludwig, Rainer Lienhart

TL;DR在修正过的评估中，我们表明现有的两阶段方法具有与一阶段方法相竞争的实力，并引入了一种新型的两阶段模型 DSFormer，在修正评估中击败了所有现有的场景图模型，取得了新的 SOTA，其核心设计原则是将主体和客体掩码直接编码到特征空间中。

Abstract

In panoptic scene graph generation (PSGG), models retrieve interactions between objects in an image which are grounded by panoptic segmentation masks. Previous evaluations on panoptic scene graphs have been subject to an erroneous →

发现论文，激发创造

图像场景图生成（SGG）基准测试

本研究发展了基于maskrcnn-benchmark和多个流行模型的场景图像生成基准测试，并通过Visual Genome和OpenImages视觉关系检测数据集的全面研究来评估场景图像生成模型的主要特性，从而为完善图像理解模型提供了可能。

Jul, 2021

全景场景图生成

介绍了一项新的问题任务，即基于全景分割生成全景场景图（PSG）；创建了一个高质量 PSG 数据集用于基准测试，并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线；探讨了未来的挑战和发展方向。

Jul, 2022

HiLo: 利用高低频率关系进行无偏差全景场景图生成

提出了一种名为Panoptic Scene Graph generation的任务，该任务旨在分段图像并提取三元组，同时利用HiLo框架解决长尾问题和语义重叠问题，以实现无偏的PSG方法。在广泛的实验中取得了最新的实验结果，并应用于预测场景图中的盒子的场景图生成任务中，相比所有基线方法均有所改善。

Mar, 2023

从配对到关系：用Pair-Net生成全景场景图

本文提出了一种基于Pair Proposal Network(PPN)的新型架构Pair then Relation (Pair-Net)，利用矩阵学习器(matrix learner)来过滤稀疏的主语和宾语之间的关系，通过实验分析得到了新的最佳PSG表现结果，并超越了之前的PSGFormer。

Jul, 2023

领域不变学习用于全景场景图生成

通过测量主题对象对之间的谓词预测风险，以及学习不变的谓词表示嵌入，我们提出了一种新的框架来推断潜在的有偏见注释并将其自适应地转移为一致的注释，从而显著提高了基准模型的性能，达到了最新的最佳表现，并在Panoptic场景图生成数据集上展示了很好的泛化和有效性。

Oct, 2023

TextPSG: 从文本描述生成全景场景图

从纯文本描述中生成全景场景图，通过区域分组器、实体对齐器、段合并器和标签生成器构建无显式链接、无预定义概念集的场景理解框架，有效地提高了性能和鲁棒性。

Oct, 2023

全景视频场景图生成

通过建立综合的真实世界视觉感知系统，我们提出并研究了一个称为全景场景图生成（PVSG）的新问题。PVSG与现有的视频场景图生成（VidSGG）问题相关，后者侧重于视频中的人与物体之间的时间交互，并基于边界框进行实体识别。然而，边界框在检测非刚性物体和背景方面的局限性常常导致VidSGG遗漏关键细节，而PVSG则要求场景图中的节点由更精确的像素级分割掩码实体识别，以促进整体场景理解。为了推动这一新领域的研究，我们贡献了PVSG数据集，其中包含400个视频（289个第三人称视频+111个自我中心视频），包含150K帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法，并分享了未来工作的有用设计实践。

Nov, 2023

DSGG：稠密关系变换器用于端到端场景图生成

本文介绍了一种新的基于Transformer的方法，称为DSGG，将场景图检测视为基于一组独特的图感知查询的直接图预测问题，并采用放松子图匹配的方式获取图节点及其关系的紧凑表示，以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明，该模型在场景图生成任务上取得了最先进的结果，在mR@50和mR@100方面分别取得了3.5％和6.7％的显著改进，在全景场景图生成任务上甚至取得了8.5％和10.3％的更大改进。

Mar, 2024

从易到难：学习课程形状感知特征用于稳健的全景场景图生成

基于全景分割掩码，我们提出了一种模型不可知的课程形状感知特征学习策略，将形状感知特征与Panoptic Scene Graph Generation相结合，并采用易于困难的方式整合形状感知特征，通过在训练过程中区分学习难度不同的谓词组，并利用知识蒸馏保留早期阶段获取的知识，我们证明了我们提出的方法在两个全景场景图生成任务中以及鲁棒性和零样本上的优越性和鲁棒性。

Jul, 2024

OpenPSG: 大型多模态模型实现的开放式全景场景图生成

本研究旨在通过利用大型多模态模型(LMMs)实现自适应关系预测的开放场景图生成任务(OpenPSG)，通过引入关系查询变压器以有效提取对象对的视觉特征并估计它们之间的关系存在，然后通过滤除无关的对象对来提高预测效率，在Panoptic Scene Graph Generation (PSG) 中自适应地执行开放集关系预测，实验证明我们的方法在开放集关系预测和全景场景图生成方面取得了最先进的性能。

Jul, 2024