从像素到图形：利用视觉语言模型进行开放式场景图生成

CVPRApr, 2024

从像素到图形：利用视觉语言模型进行开放式场景图生成

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

Rongjie Li, Songyang Zhang, Dahua Lin, Kai Chen, Xuming He

TL;DR基于序列生成的新型开放词汇的场景图生成框架，通过使用视觉语言预训练模型和显式关系建模知识，实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。

Abstract

scene graph generation (SGG) aims to parse a visual scene into an intermediate graph representation for downstream reasoning tasks. Despite recent advancements, existing methods struggle to generate scene graphs with novel →

scene graph generation visual relation concepts open-vocabulary sgg framework vision-language pre-trained models relational modeling

发现论文，激发创造

扩展场景图边界：通过视觉 - 概念对齐和保持实现全开词汇场景图生成

提出了一种名为 OvSGTR 的统一框架，用于从整体视角实现完全开放词汇的场景图生成，并通过知识蒸馏保留视觉 - 概念对齐，综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。

Nov, 2023

使用场景图将结构化表示法加入预训练视觉与语言模型

研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

May, 2023

使用虚词去偏以提升视觉 - 语言模型中的场景图生成

通过使用预训练的视觉 - 语言模型（VLMs）增强场景图生成（SGG）模型的表示，并结合语言模型估计（LM Estimation）来解决预训练与 SGG 之间的差距，我们的方法有效地处理了词汇偏见，加强了 SGG 的表示，并获得了显著的性能提升。

Mar, 2024

从场景图生成图像

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

自适应视觉场景理解：增量场景图生成

通过引入包含三个学习场景和八个评估指标的综合连续场景图生成（CSEGG）数据集，研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况，以及连续目标检测如何增强对未知对象上已知关系的泛化性能。

Oct, 2023

从整体和特定区域叙述中综合合成场景图的 GPT4SGG

从自然语言描述中学习场景图已被证明是生成场景图的一种廉价且有前途的方法。为了解决从非结构化标题数据中提取有意义的关系三元组、从解析过的三元组中定位未定位对象的模糊问题以及标题数据的稀疏性和偏向性等问题，我们提出了一个简单而有效的框架 GPT4SGG，通过综合和区域特定的叙述来合成场景图，从而显著提高了在图像 - 标题数据上训练的 SGG 模型的性能。我们相信这项开创性的工作可以激发进一步研究语言模型的视觉推理能力。

Dec, 2023

通过场景图检索进行开放词汇目标检测

该研究提出了一种基于场景图的发现网络（SGDN），利用场景图线索进行开放词汇目标检测和场景图检测。实验证明该方法的有效性，并且能够解决以往方法无法处理的 OV 场景图生成任务。

Jul, 2023

SG-Adapter：使用场景图引导增强文本到图像生成

通过引入场景图适配器（SG-Adapter）来纠正原始文本嵌入中的不准确性，使生成的图像与复杂情境中的多个对象和关系的人类预期保持一致。

May, 2024

VLPrompt：视觉 - 语言提示用于全景场景图生成

利用大型语言模型，提出了一种名为 Vision-Language Prompting (VLPrompt) 的模型，通过结合图像和语言信息，通过基于注意机制的提示网络实现精确的关系预测；实验证明，VLPrompt 显著优于现有 PSG 数据集上的最先进方法，证明了整合语言信息和缓解关系的长尾问题的有效性。

Nov, 2023

面向终身场景图生成的知识感知上下文提示学习

基于在预训练语言模型中环境背景学习的成就，本论文提出了一种新颖实用的场景图生成框架，名为终身场景图生成（LSGG），在其中任务如谓词以流式方式展开。严格实验表明，我们提出的方法在 LSGG 方面在各种度量标准上优于现有方法。此外，在两个主流基准数据集 VG 和 Open-Image (v6) 上的广泛实验显示了我们提出的模型在连续学习和传统设置方面的优势。此外，全面的消融实验证明了我们模型的每个组成部分的有效性。

Jan, 2024