使用场景图将结构化表示法加入预训练视觉与语言模型

May, 2023

使用场景图将结构化表示法加入预训练视觉与语言模型

Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs

Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio Feris...

TL;DR研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

Abstract

vision and language (VL) models have demonstrated remarkable zero-shot performance in a variety of tasks. However, recent studies have shown that even the best vl models struggle to capture aspects of

vision and language scene understanding structured annotations scene graphs vl models

发现论文，激发创造

从像素到图形：利用视觉语言模型进行开放式场景图生成

基于序列生成的新型开放词汇的场景图生成框架，通过使用视觉语言预训练模型和显式关系建模知识，实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。

Apr, 2024

使用虚词去偏以提升视觉 - 语言模型中的场景图生成

通过使用预训练的视觉 - 语言模型（VLMs）增强场景图生成（SGG）模型的表示，并结合语言模型估计（LM Estimation）来解决预训练与 SGG 之间的差距，我们的方法有效地处理了词汇偏见，加强了 SGG 的表示，并获得了显著的性能提升。

Mar, 2024

为图像字幕生成辩护：场景图的重要性

提出了 SG2Caps 框架，该框架利用场景图标签进行图像说明，以避免昂贵的图形卷积。该框架利用空间位置和 HOI 标签作为附加的 HOI 图，实现了更好的性能。

Feb, 2021

SelfGraphVQA：基于自监督图神经网络的基于场景的问题回答

通过使用预训练场景图生成器从图像中提取场景图，并应用语义保持增强和自监督技术，我们引入了 SelfGraphVQA 框架，改进了图表示在视觉问答任务中的利用，从而避免昂贵和潜在有偏的注释数据，并通过图像增强创建提取图的多个视图，通过优化它们表示中的信息内容来学习联合嵌入。我们实验并证明了提取的场景图对于视觉问答非常有效，并且通过强调视觉信息的重要性来提升整体性能，为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。

Oct, 2023

SG-Adapter：使用场景图引导增强文本到图像生成

通过引入场景图适配器（SG-Adapter）来纠正原始文本嵌入中的不准确性，使生成的图像与复杂情境中的多个对象和关系的人类预期保持一致。

May, 2024

无监督视觉 - 语言解析：通过依赖关系无缝桥接视觉场景图与语言结构

本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务，并构造了一个新的数据集 VLParse，提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。

Mar, 2022

图形化结构表示用于视觉问题回答

本文提出通过建立基于场景信号和问题信息的图结构，应用深度神经网络分析问题的方法来提升视觉问答（VQA）的性能，相比于基于 CNN/LSTM 的 VQA 方法，本方法获得了显著的改善，其准确性从 71.2％提高到 74.4％，在不同的 “平衡” 场景中的准确性则提高了 4.4％。

Sep, 2016

语言结构作为视觉场景图生成的弱监督

本文研究了在场景图生成中如何利用语言结构以及图像标题，通过弱化的监督模式提高模型性能，相比起传统的三元组监督模式，更具伸缩性且更适用于多模态数据。

May, 2021

从整体和特定区域叙述中综合合成场景图的 GPT4SGG

从自然语言描述中学习场景图已被证明是生成场景图的一种廉价且有前途的方法。为了解决从非结构化标题数据中提取有意义的关系三元组、从解析过的三元组中定位未定位对象的模糊问题以及标题数据的稀疏性和偏向性等问题，我们提出了一个简单而有效的框架 GPT4SGG，通过综合和区域特定的叙述来合成场景图，从而显著提高了在图像 - 标题数据上训练的 SGG 模型的性能。我们相信这项开创性的工作可以激发进一步研究语言模型的视觉推理能力。

Dec, 2023

通过大型语言模型进行弱监督下的细粒度场景图生成

通过利用大型语言模型和链式思维及上下文少样本学习策略，我们提出了一种新方法：用于弱监督场景图生成的大型语言模型，可以从图片标题中提取三元组并与目标数据的实体 / 谓词类对齐，有效地解决语义过度简化和低密度场景图的问题，实验证明该方法在 Recall@K 和平均 Recall@K 上相较于现有的弱监督场景图生成方法具有显著的提升，且能够以少量的训练图片进行有效的模型训练。

Oct, 2023