用语义原型学习生成全景场景图

Jul, 2023

Panoptic Scene Graph Generation with Semantics-prototype Learning

Li Li, Wei Ji, Yiming Wu, Mengze Li, You Qin...

TL;DR通过 ADTrans 框架，将偏倚的谓词注释自适应性地转化为信息丰富且统一的注释，从而显著提高基准模型的性能，并在多个数据集上展现出了良好的泛化能力和有效性。

Abstract

panoptic scene graph generation (PSG) parses objects and predicts their relationships (predicate) to connect human language and visual scenes. However, different language preferences of annotators and semantic overlaps between predicates lead to biased →

panoptic scene graph generation predicate annotations adtrans unbiased prototypes benchmark models

发现论文，激发创造

领域不变学习用于全景场景图生成

通过测量主题对象对之间的谓词预测风险，以及学习不变的谓词表示嵌入，我们提出了一种新的框架来推断潜在的有偏见注释并将其自适应地转移为一致的注释，从而显著提高了基准模型的性能，达到了最新的最佳表现，并在 Panoptic 场景图生成数据集上展示了很好的泛化和有效性。

Oct, 2023

通过去偏向性生成信息场景图

为解决语义空间层面和样本训练层面的不平衡问题，在场景图生成中提出了一种名为 DB-SGG 的有效框架，通过语义去偏见和平衡谓词学习的组件集成，超过 Transformer 136.3％、119.5％和 122.6％的 mR@20，在三个场景图生成子任务上，应用于 SGG 模型，并在句子到图形检索和图像字幕的两个下游任务上得到验证。

Aug, 2023

全景场景图生成

介绍了一项新的问题任务，即基于全景分割生成全景场景图（PSG）；创建了一个高质量 PSG 数据集用于基准测试，并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线；探讨了未来的挑战和发展方向。

Jul, 2022

基于原型的嵌入网络用于场景图生成

该研究提出了一种基于原型的嵌入网络（PE-Net），使用基于原型的紧凑和独特表示模型实体 / 谓词，并在常见嵌入空间中建立实体对和谓词的匹配关系以进行关系识别，Extensive 的实验表明，该方法在 SGG 上获得更好的关系识别能力，实现了 Visual Genome 和 Open Images 数据集上的新的最优性能。

Mar, 2023

数据传输细粒度场景图生成

本文提出了一种新颖的内外数据传输（ IETrans ）方法来解决场景图生成的两个数据分布问题，即长尾分布和语义歧义。通过自动创建增强的数据集，该方法为所有谓词提供了更充分和连贯的注释，从而可应用于大规模带有 1,807 个谓词类的 SGG。最终，通过在增强的数据集上训练，使用神经因子模型可以在保持竞争性宏性能的同时，使得宏性能翻倍。

Mar, 2022

从整体到特定：通过平衡调整进行信息化场景图生成

本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG，该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整，有效提高场景图生成的性能。在 Visual Genome 数据集中，与变压器模型相比，我们的方法在三个子任务中的平均回收率分别提高了 14.3％，8.0％和 6.1％。

Aug, 2021

场景图生成的自适应细粒度谓词学习

该研究提出了自适应细粒度谓词分辨学习方法，运用自适应谓词叶结点图的方法定位难以辨别的谓词并逐步规范学习，最终在 VG-SGG 和 GQA-SGG 数据集中的平均召回率上分别提高了 175％和 76％，取得了新的最佳性能。

Jul, 2022

HiLo: 利用高低频率关系进行无偏差全景场景图生成

提出了一种名为 Panoptic Scene Graph generation 的任务，该任务旨在分段图像并提取三元组，同时利用 HiLo 框架解决长尾问题和语义重叠问题，以实现无偏的 PSG 方法。在广泛的实验中取得了最新的实验结果，并应用于预测场景图中的盒子的场景图生成任务中，相比所有基线方法均有所改善。

Mar, 2023

4D 全景场景图生成

在本文中，我们介绍了一种名为 4D Panoptic Scene Graph（PSG-4D）的新表示方法，用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集，并提出了 PSG4DFormer 模型，该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验，表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后，我们提供了一个真实世界的应用示例，以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。

May, 2024

TextPSG: 从文本描述生成全景场景图

从纯文本描述中生成全景场景图，通过区域分组器、实体对齐器、段合并器和标签生成器构建无显式链接、无预定义概念集的场景理解框架，有效地提高了性能和鲁棒性。

Oct, 2023