通过语言旋转进行非配对图像字幕生成

ECCVMar, 2018

通过语言旋转进行非配对图像字幕生成

Unpaired Image Captioning by Language Pivoting

Jiuxiang Gu, Shafiq Joty, Jianfei Cai, Gang Wang

TL;DR通过 “语言中转” 方法，该研究解决了跨语言图像和自然语言生成的问题，其基本思路是利用中文语言来架设桥梁，以实现跨语言的图像生成任务。实验表明，该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。

Abstract

image captioning is a multimodal task involving computer vision and natural language processing, where the goal is to learn a mapping from

image captioning multimodal task language pivoting computer vision natural language processing

发现论文，激发创造

UNISON: 无配对跨语言图像字幕

本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法，通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成，并在汉语图像描述生成任务上展示了其有效性。

Oct, 2020

多模态图像描述翻译中的基准

本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索，并使用最相似图像的描述进行跨语言重新排序，达到优化的效果。本方法不依赖于大量域内平行数据的可用性，而仅依赖于大量单语言字幕图像数据集的可用性，以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示，与强基线相比，我们的方法提高了 1 个 BLEU 分数。

Jan, 2016

无配对跨语言图像字幕生成和自监督奖励

本文介绍一种利用增强学习的自监督奖励和多级视觉语义匹配模型来生成跨语言图像描述的方法，在英语和汉语两种语言测试中分别取得了显著的性能提升。

Aug, 2019

学习多语言多模态表示的图像枢转

本文介绍了一种用于匹配不同语言中的图像和句子的多模态多语言表达式学习模型，其目的是提高多语言版本的图像搜索和理解，在图像描述排名及语义文本相似度方面实现了最先进的性能。

Jul, 2017

使用中间稳定化技术进行跨模态语言生成，以实现网络规模的语言覆盖

研究问题是如何解决数据饥渴模型与缺乏非英语注释的问题，提出了一种名为 PLuGS 的方法，该方法直接利用英语注释（gold data）及其机器翻译版本（silver data）进行训练，从而在运行时生成目标语言字幕。该方法在使用 Open Images 数据集中的图像进行大领域测试时，在 5 种不同的目标语言中表现优异。此外，研究者还发现了一个有趣的现象：PLuGS 模型生成的英文字幕比原始的单语英文模型生成的副标题更好。

May, 2020

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

使用配对和非配对训练样本学习图像到图像的翻译

本文提出了一种新的通用的图像到图像转换模型，可以同时利用配对和未配对数据进行训练，相比于传统方法性能得到显著提升，此外，研究中首次考虑了混合配对和未配对数据的情况。

May, 2018

从词到句：基于视觉桥接的零资源机器翻译渐进式学习方法

本文提出了一种基于图片引导的无资源机器翻译渐进式学习方法，从词级别开始逐步学习，最终将学习到的词汇级别的翻译应用在句子级别的翻译上，从而有效减少了图片噪声对模型学习的干扰，在两个广泛使用的基于图像引导的翻译数据集上，该方法明显优于其他最先进的方法。

Jun, 2019

面向对象的无监督图像描述

本文旨在探索无监督图像标注任务，使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系，以此提高无监督方法的性能表现。

Dec, 2021