场景图是否足够好以改进图像字幕？

ACLSep, 2020

场景图是否足够好以改进图像字幕？

Are scene graphs good enough to improve Image Captioning?

Victor Milewski, Marie-Francine Moens, Iacer Calixto

TL;DR本文探讨了使用场景图在图像字幕生成中的应用，研究表明添加场景图编码器可以提高字幕描述效果，提出了一种 C-GAT 模型，该模型条件化图更新功能，使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。

Abstract

Many top-performing image captioning models rely solely on object features computed with an object detection model to generate image descriptions. However, recent studies propose to directly use →

image captioning object detection scene graphs graph attention network cider

发现论文，激发创造

为图像字幕生成辩护：场景图的重要性

提出了 SG2Caps 框架，该框架利用场景图标签进行图像说明，以避免昂贵的图形卷积。该框架利用空间位置和 HOI 标签作为附加的 HOI 图，实现了更好的性能。

Feb, 2021

通过场景图分解实现全面图像字幕化

通过细粒度的图像场景图表示，我们重新设计了图像标题生成模型，实现了准确、多样、可控制的标题生成，同时在标题多样性、项点化及可控制性等方面均取得了最新最佳结果。

Jul, 2020

通过场景图对齐进行非配对图片描述

本研究提出了一种基于场景图的方法来进行非配对图像描述，用于生成不需要图像 - 文字配对的结果，显著超过现有方法的表现。

Mar, 2019

从场景图生成图像

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

通过标题的关注蒸馏生成场景图

文章阐述了如何使用图像注释中的注意力分配机制来增强场景图的估计能力，提出了一种称为主题场景图的方法，学习从图像到自然语言的映射，并用于关系重要性估计。

Oct, 2021

从自然语言监督中学习生成场景图

本文提出了一种通过图像 - 句子对学习的方法，以提取图像中本地化对象及其关系的图形表示，即场景图，其中利用了现成的对象检测器来识别和定位对象实例，并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对，我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30％的相对增益。同时，在弱监督和全监督场景图生成方面，我们的模型也展现了出色的结果，我们还探究了用于检测场景图的开放词汇设置，并呈现了首个开放式场景图生成的结果。

Sep, 2021

使用场景图实现交互式图像生成

本文提出了一种基于场景图的递增式图像生成模型，该模型通过使用递归神经网络、图卷积网络以及生成对抗网络来生成逼真的多对象图像，实验结果表明其在生成逐步增长场景图的情况下比其他方法更优。

May, 2019

利用对抗网络生成三元组以构建场景图

本研究提出使用生成对抗网络（GAN）生成细粒度场景图的方法，该方法首先生成单个关于具体区域场景的子图，并在不需要边界框标签的情况下，生成带属性信息的场景图。实验证明了该模型在数据集上的表现优于之前的工作，并能处理更大的词汇量。

Feb, 2018

潜在扩散中的场景图条件

利用 ControlNet 和 Gated Self-Attention，我们提出了多种方法来解决稀缺的图像和场景图数据，通过场景图生成高质量图像，超越了之前的方法。

Oct, 2023

探究图像关系以用于图像描述

本文介绍了一种利用图卷积网络和长短期记忆（GCN-LSTM）结构，将语义和空间对象关系集成到图像编码器中，以生成图像标题的新方法，并在 COCO 图像字幕数据集上开展了广泛的实验，并取得了比现有方法更好的结果。

Sep, 2018