UNISON: 无配对跨语言图像字幕

AAAIOct, 2020

UNISON: Unpaired Cross-lingual Image Captioning

Jiahui Gao, Yi Zhou, Philip L. H. Yu, Shafiq Joty, Jiuxiang Gu

TL;DR本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法，通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成，并在汉语图像描述生成任务上展示了其有效性。

Abstract

image captioning has emerged as an interesting research field in recent years due to its broad application scenarios. The traditional paradigm of image captioning relies on paired image-caption datasets to train the model in a supervised manner. However, creating such paired datasets f

image captioning cross-lingual unsupervised learning scene graph features chinese language

发现论文，激发创造

无配对跨语言图像字幕生成和自监督奖励

本文介绍一种利用增强学习的自监督奖励和多级视觉语义匹配模型来生成跨语言图像描述的方法，在英语和汉语两种语言测试中分别取得了显著的性能提升。

Aug, 2019

通过语言旋转进行非配对图像字幕生成

通过 “语言中转” 方法，该研究解决了跨语言图像和自然语言生成的问题，其基本思路是利用中文语言来架设桥梁，以实现跨语言的图像生成任务。实验表明，该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。

Mar, 2018

面向对象的无监督图像描述

本文旨在探索无监督图像标注任务，使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系，以此提高无监督方法的性能表现。

Dec, 2021

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

流畅引导下的跨语言图像字幕生成

本研究旨在建立一种跨语言图像描述模型，使用机器翻译的句子进行训练并通过流利度引导的学习框架提高生成的中文标题的流畅性和相关性，取得了显著成效。

Aug, 2017

探索语义关系的非配对图像字幕生成

本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术，以实现无配对图像说明，并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer，能够有效地提高图像说明的质量，并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。

Jun, 2021

通过场景图对齐进行非配对图片描述

本研究提出了一种基于场景图的方法来进行非配对图像描述，用于生成不需要图像 - 文字配对的结果，显著超过现有方法的表现。

Mar, 2019

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

通过对带标签数据进行对抗传输进行半监督图像字幕生成

提出了一种半监督学习方法，使用对抗式学习来为未配对的样本分配伪标签，提升图像字幕模型的泛化性能，并展示了该方法在不同场景下都有较为明显的性能提升，包括关系字幕和网络爬虫数据。

Jan, 2023