SGTR：基于 Transformer 的端到端场景图生成

CVPRDec, 2021

SGTR：基于 Transformer 的端到端场景图生成

SGTR: End-to-end Scene Graph Generation with Transformer

Rongjie Li, Songyang Zhang, Xuming He

TL;DR提出了一种基于 Transformer 的端到端框架，利用结构化谓语生成器开发了一种新的实体感知的谓语表示方法，设计了图组装模块以推断适应性的进行双部分场景图形的构建，并在两个具有挑战性的基准测试中取得了最先进或可比的性能，并提高了推理效率。

Abstract

scene graph generation (SGG) remains a challenging visual understanding task due to its compositional property. Most previous works adopt a bottom-up two-stage or a point-based one-stage approach, which often suffers from high time complexity or sub-optimal designs. In this work, we pr

scene graph generation transformer-based framework entity-aware predicate representation bipartite graph construction graph assembling module

发现论文，激发创造

SGTR+：使用 Transformer 进行端到端场景图生成

通过使用双分图构建方法和终到终的框架，我们提出了一种新的场景图生成方法，有效地解决了组合属性所带来的挑战。实验证明，我们的方法在三个具有挑战性的基准测试中展现出了优秀的表现和高效率的推理能力，超过了现有方法的大部分，达到了最佳性能和时间复杂度。

Jan, 2024

DSGG：稠密关系变换器用于端到端场景图生成

本文介绍了一种新的基于 Transformer 的方法，称为 DSGG，将场景图检测视为基于一组独特的图感知查询的直接图预测问题，并采用放松子图匹配的方式获取图节点及其关系的紧凑表示，以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明，该模型在场景图生成任务上取得了最先进的结果，在 mR@50 和 mR@100 方面分别取得了 3.5％和 6.7％的显著改进，在全景场景图生成任务上甚至取得了 8.5％和 10.3％的更大改进。

Mar, 2024

数据传输细粒度场景图生成

本文提出了一种新颖的内外数据传输（ IETrans ）方法来解决场景图生成的两个数据分布问题，即长尾分布和语义歧义。通过自动创建增强的数据集，该方法为所有谓词提供了更充分和连贯的注释，从而可应用于大规模带有 1,807 个谓词类的 SGG。最终，通过在增强的数据集上训练，使用神经因子模型可以在保持竞争性宏性能的同时，使得宏性能翻倍。

Mar, 2022

使用条件查询进行单阶段视觉关系学习

本文提出了 TraCQ, 一种新的基于 Transformers 和带有条件查询的 SGG 模型，绕开多任务学习问题和组合实体配对分布，并且在使用 Visual Genome 数据集的实验中优于目前单阶段 SCG 方法和许多双阶段方法，且具有端到端的训练和更快的推理。

Jun, 2023

基于边双场景图和消息传递神经网络的语义场景图生成

通过引入边缘双场景图生成（EdgeSGG）和双消息传递神经网络（DualMPNN），本论文提出了一种建模多对象关系的新方法，可以准确地预测对象之间的详细关系，并在各个场景图生成子任务中实现了显著的性能提升，同时有效缓解了长尾分布问题。

Nov, 2023

利用谓词和三元组学习进行场景图生成

本文提出了一种双粒度关系建模（Dual-granularity Relation Modeling）网络，利用粗粒度和细粒度的三元组线索来促进关系识别，并引入了双粒度知识传递（Dual-granularity Knowledge Transfer）策略来解决长尾问题，实验证明了该方法的有效性。

Jun, 2024

RepSGG: 场景图生成中的实体和关系的新表示方式

提出了一种名为 RepSGG 的新型架构，将场景图生成（Scene Graph Generation）中的实体表示为查询，目标表示为键，并将它们之间的关系表示为查询和键之间的最大注意力权重，从而在提取高度代表性的特征方面具有更细粒度和灵活的表达能力。此外，通过在训练期间基于运行时性能进行仿射变换的策略，对关系的逻辑进行了修改，以鼓励主导类和稀有类之间更平衡的性能，实验结果表明，RepSGG 在 Visual Genome 和 Open Images V6 数据集上具有先进或可比较的性能，且推理速度快，证明了所提方法的有效性和高效性。

Sep, 2023

面向未知三元组：用于场景图生成的有效文本 - 图像联合学习

本文提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型，采用联合特征学习模块和基于事实知识的精细调整模块来解决 SGG 模型中的长尾问题和无法识别的三元组问题，同时设计了平衡的学习策略。实验表明，在 Visual Genome 数据集上，TISGG 模型的预测性能相比一般的 SGG 模型提升了 11.7% 的 zero-shot recall。

Jun, 2023

弱监督视觉语义解析

本文提出了一个广义的场景图生成模型 —— 视觉语义解析，并基于动态、注意力机制的二分图传递框架设计了关注于图节点和边的视觉语义解析网络 (VSPNet)，同时通过一种全新的图对齐算法，建立了第一个基于图的弱监督学习框架。大量实验证明 VSPNet 优于弱监督基准，而且速度是基准的数倍，因此是训练时效和性能平衡的一个不错的选择。

Jan, 2020

从整体到特定：通过平衡调整进行信息化场景图生成

本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG，该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整，有效提高场景图生成的性能。在 Visual Genome 数据集中，与变压器模型相比，我们的方法在三个子任务中的平均回收率分别提高了 14.3％，8.0％和 6.1％。

Aug, 2021