利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

Sep, 2019

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators

Kuang-Huei Lee, Hamid Palangi, Xi Chen, Houdong Hu, Jianfeng Gao

TL;DR通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Abstract

Grounding language to visual relations is critical to various language-and-vision applications. In this work, we tackle two fundamental language-and-vision tasks: image-text matching and image captioning, and dem

neural scene graph generators image-text matching image captioning visual relation features downstream models

发现论文，激发创造

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

从自然语言监督中学习生成场景图

本文提出了一种通过图像 - 句子对学习的方法，以提取图像中本地化对象及其关系的图形表示，即场景图，其中利用了现成的对象检测器来识别和定位对象实例，并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对，我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30％的相对增益。同时，在弱监督和全监督场景图生成方面，我们的模型也展现了出色的结果，我们还探究了用于检测场景图的开放词汇设置，并呈现了首个开放式场景图生成的结果。

Sep, 2021

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

从场景图生成图像

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

使用有限标签进行场景图预测

本文提出了一种半监督方法，通过很少的带标签的样本分配概率关系标签到大量未标记的图像，生成足够的训练数据来训练任何现有的最先进的场景图模型，该方法在场景图预测方面优于所有基准方法，此外，我们定义了一种关系的复杂度指标，为条件提供指示符。

Apr, 2019

跨模态场景图匹配用于关系感知的图像 - 文本检索

本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系，从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取，取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。

Oct, 2019

学习基于图像的句子表示

我们介绍了训练在监督图像字幕语料库上的多种模型，用于预测给定字幕的图像特征，以执行句子表示接地。我们训练了一个接地的句子编码器，在 Coco 字幕和图像检索方面取得了良好的性能，随后展示了该编码器可以成功地转移到各种 NLP 任务，与仅文本模型相比，性能有所提高。最后，我们分析了接地的贡献，表明该系统学习到的单词嵌入优于非接地的单词嵌入。

Jul, 2017

在文本引导的图像生成中测试关系理解

本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察，发现只有大约 22％的图像与基本关系提示匹配。研究结果表明，当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系，本文从认知和计算两个角度，提出可能的改进方向。

Jul, 2022

使用场景图进行视觉关系检测：一项调查

本文为场景图生成的详细调查报告，主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用，同时分析了未来发展的方向。

May, 2020