通过场景图对齐进行非配对图片描述

ICCVMar, 2019

通过场景图对齐进行非配对图片描述

Unpaired Image Captioning via Scene Graph Alignments

Jiuxiang Gu, Shafiq Joty, Jianfei Cai, Handong Zhao, Xu Yang...

TL;DR本研究提出了一种基于场景图的方法来进行非配对图像描述，用于生成不需要图像 - 文字配对的结果，显著超过现有方法的表现。

Abstract

Most of current image captioning models heavily rely on paired image-caption datasets. However, getting large scale image-caption paired data is labor-intensive and time-consuming. In this paper, we present a scene graph-based approach for unpaired →

image captioning unpaired data scene graph encoder decoder

发现论文，激发创造

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

UNISON: 无配对跨语言图像字幕

本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法，通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成，并在汉语图像描述生成任务上展示了其有效性。

Oct, 2020

从自然语言监督中学习生成场景图

本文提出了一种通过图像 - 句子对学习的方法，以提取图像中本地化对象及其关系的图形表示，即场景图，其中利用了现成的对象检测器来识别和定位对象实例，并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对，我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30％的相对增益。同时，在弱监督和全监督场景图生成方面，我们的模型也展现了出色的结果，我们还探究了用于检测场景图的开放词汇设置，并呈现了首个开放式场景图生成的结果。

Sep, 2021

探索语义关系的非配对图像字幕生成

本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术，以实现无配对图像说明，并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer，能够有效地提高图像说明的质量，并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。

Jun, 2021

场景图是否足够好以改进图像字幕？

本文探讨了使用场景图在图像字幕生成中的应用，研究表明添加场景图编码器可以提高字幕描述效果，提出了一种 C-GAT 模型，该模型条件化图更新功能，使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。

Sep, 2020

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

为图像字幕生成辩护：场景图的重要性

提出了 SG2Caps 框架，该框架利用场景图标签进行图像说明，以避免昂贵的图形卷积。该框架利用空间位置和 HOI 标签作为附加的 HOI 图，实现了更好的性能。

Feb, 2021

面向对象的无监督图像描述

本文旨在探索无监督图像标注任务，使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系，以此提高无监督方法的性能表现。

Dec, 2021

通过对带标签数据进行对抗传输进行半监督图像字幕生成

提出了一种半监督学习方法，使用对抗式学习来为未配对的样本分配伪标签，提升图像字幕模型的泛化性能，并展示了该方法在不同场景下都有较为明显的性能提升，包括关系字幕和网络爬虫数据。

Jan, 2023

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016