面向未知三元组：用于场景图生成的有效文本 - 图像联合学习

Jun, 2023

面向未知三元组：用于场景图生成的有效文本 - 图像联合学习

Towards Unseen Triples: Effective Text-Image-joint Learning for Scene Graph Generation

Qianji Di, Wenxi Ma, Zhongang Qi, Tianxiang Hou, Ying Shan...

TL;DR本文提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型，采用联合特征学习模块和基于事实知识的精细调整模块来解决 SGG 模型中的长尾问题和无法识别的三元组问题，同时设计了平衡的学习策略。实验表明，在 Visual Genome 数据集上，TISGG 模型的预测性能相比一般的 SGG 模型提升了 11.7% 的 zero-shot recall。

Abstract

scene graph generation (SGG) aims to structurally and comprehensively represent objects and their connections in images, it can significantly benefit scene understanding and other related downstream tasks. Existing SGG models often struggle to solve the →

scene graph generation long-tailed problem text-image-joint model joint fearture learning balanced learning strategy

发现论文，激发创造

增强数据传输与人工三元组合作的场景图生成

本文重点在于场景图生成（SGG）的训练数据集增强，通过引入 Feature Space Triplet Augmentation（FSTA）和 Soft Transfer 两个模块，成功提高了对具有挑战性的关系三元组的预测准确性，并在 Visual Genome 数据集中取得了较高的召回率。

Jun, 2024

数据传输细粒度场景图生成

本文提出了一种新颖的内外数据传输（ IETrans ）方法来解决场景图生成的两个数据分布问题，即长尾分布和语义歧义。通过自动创建增强的数据集，该方法为所有谓词提供了更充分和连贯的注释，从而可应用于大规模带有 1,807 个谓词类的 SGG。最终，通过在增强的数据集上训练，使用神经因子模型可以在保持竞争性宏性能的同时，使得宏性能翻倍。

Mar, 2022

通过大型语言模型进行弱监督下的细粒度场景图生成

通过利用大型语言模型和链式思维及上下文少样本学习策略，我们提出了一种新方法：用于弱监督场景图生成的大型语言模型，可以从图片标题中提取三元组并与目标数据的实体 / 谓词类对齐，有效地解决语义过度简化和低密度场景图的问题，实验证明该方法在 Recall@K 和平均 Recall@K 上相较于现有的弱监督场景图生成方法具有显著的提升，且能够以少量的训练图片进行有效的模型训练。

Oct, 2023

SGEITL: 基于场景图增强的图像 - 文本学习，用于视觉常识推理

该论文提出了一种场景图增强的图像 - 文本学习框架，其中利用视觉场景图结构进行常识推理，通过多跳图变压器实现模型结构的正则化，引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验，发现其显着提高了性能并证明了每个提出的组件的有效性。

Dec, 2021

SG-Adapter：使用场景图引导增强文本到图像生成

通过引入场景图适配器（SG-Adapter）来纠正原始文本嵌入中的不准确性，使生成的图像与复杂情境中的多个对象和关系的人类预期保持一致。

May, 2024

图像语义关系生成

为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Oct, 2022

跨模态场景图匹配用于关系感知的图像 - 文本检索

本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系，从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取，取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。

Oct, 2019

利用谓词和三元组学习进行场景图生成

本文提出了一种双粒度关系建模（Dual-granularity Relation Modeling）网络，利用粗粒度和细粒度的三元组线索来促进关系识别，并引入了双粒度知识传递（Dual-granularity Knowledge Transfer）策略来解决长尾问题，实验证明了该方法的有效性。

Jun, 2024

SGTR：基于 Transformer 的端到端场景图生成

提出了一种基于 Transformer 的端到端框架，利用结构化谓语生成器开发了一种新的实体感知的谓语表示方法，设计了图组装模块以推断适应性的进行双部分场景图形的构建，并在两个具有挑战性的基准测试中取得了最先进或可比的性能，并提高了推理效率。

Dec, 2021

通过三元组标定和缩减实现零样本场景图生成

为了应对现有场景图生成方法在未见过的三元组上存在的组合泛化能力差的问题，本论文提出了一种 Triplet Calibration and Reduction (T-CAR) 框架，该框架通过三元组校准损失、未见空间降低损失和上下文编码器等手段来提高模型对未见三元组的组合泛化能力，在零样本场景图生成任务中取得了明显的改进。

Sep, 2023