共享多模态嵌入的无监督图像字幕生成

ICCVAug, 2019

共享多模态嵌入的无监督图像字幕生成

Towards Unsupervised Image Captioning with Shared Multimodal Embeddings

Iro Laina, Christian Rupprecht, Nassir Navab

TL;DR通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Abstract

Understanding images without explicit supervision has become an important problem in computer vision. In this paper, we address image captioning by generating language descriptions of scenes without learning from annotated pairs of images and their captions. The core component of our a

image captioning latent space semantic embeddings weakly paired images domain alignment

发现论文，激发创造

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

UNISON: 无配对跨语言图像字幕

本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法，通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成，并在汉语图像描述生成任务上展示了其有效性。

Oct, 2020

探索语义关系的非配对图像字幕生成

本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术，以实现无配对图像说明，并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer，能够有效地提高图像说明的质量，并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。

Jun, 2021

多模态神经语言模型统一视觉 - 语义嵌入

本文提出了一种多模态学习的编码器 - 解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码，该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

SITTA: 图像描述任务中的语义图像文本对齐

为了使生成合适的图片字幕，需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射，从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射，我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下，我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。

Jul, 2023

语音和文本嵌入空间的无监督交叉模态对齐

该研究提出了一种无监督的跨模态对齐框架，通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐，从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统，并且在分类和翻译任务上的表现与监督的方法相媲美。

May, 2018

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020