学习多语言多模态表示的图像枢转

EMNLPJul, 2017

学习多语言多模态表示的图像枢转

Image Pivoting for Learning Multilingual Multimodal Representations

Spandana Gella, Rico Sennrich, Frank Keller, Mirella Lapata

TL;DR本文介绍了一种用于匹配不同语言中的图像和句子的多模态多语言表达式学习模型，其目的是提高多语言版本的图像搜索和理解，在图像描述排名及语义文本相似度方面实现了最先进的性能。

Abstract

In this paper we propose a model to learn multimodal multilingual representations for matching images and sentences in different languages, with the aim of advancing multilingual versions of image search and image understanding. Our model learns a common representation for images and t

multimodal multilingual representations image search image understanding pairwise ranking loss function state-of-the-art performance

发现论文，激发创造

多模态图像描述翻译中的基准

本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索，并使用最相似图像的描述进行跨语言重新排序，达到优化的效果。本方法不依赖于大量域内平行数据的可用性，而仅依赖于大量单语言字幕图像数据集的可用性，以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示，与强基线相比，我们的方法提高了 1 个 BLEU 分数。

Jan, 2016

跨模态检索任务的多语言词嵌入对齐

提出了一种新的方法来学习多模态多语言嵌入，用于匹配两种语言中图像及其相关标题，结合两个现有的目标函数，在模型中调整现有语言之间的词嵌入对齐，证明该方法实现了更好的泛化，在文本 - 图像和图像 - 文本检索任务中，以及标题 - 标题相似性任务中取得了最先进的性能，使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。

Oct, 2019

通过语言旋转进行非配对图像字幕生成

通过 “语言中转” 方法，该研究解决了跨语言图像和自然语言生成的问题，其基本思路是利用中文语言来架设桥梁，以实现跨语言的图像生成任务。实验表明，该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。

Mar, 2018

从词到句：基于视觉桥接的零资源机器翻译渐进式学习方法

本文提出了一种基于图片引导的无资源机器翻译渐进式学习方法，从词级别开始逐步学习，最终将学习到的词汇级别的翻译应用在句子级别的翻译上，从而有效减少了图片噪声对模型学习的干扰，在两个广泛使用的基于图像引导的翻译数据集上，该方法明显优于其他最先进的方法。

Jun, 2019

多语言多模态表征学习的桥式相关神经网络

提出了一种用于多视图学习的通用模型，通过一个中间视图的并行数据，实现了多个视图之间的共同表示，并在多语言文本分类和多模式检索任务中取得了最先进的结果。

Oct, 2015

组合式分布式语义的多语言模型

通过基于多语种数据和联合嵌入的分布式假设扩展学习语义表示的新技术，学习出在跨语言上语义等价的句子之间高度对齐而在不相似的句子之间保持足够距离的表示。此方法不仅适用于单词层面，还可以对文档进行语义层面的表示学习。在两个跨语言文档分类任务上，我们的模型都能胜过之前的最佳成果，并通过定性分析和枢轴效应研究证明了我们学习到的语义表示合理且能够捕捉跨语言语义关系。

Apr, 2014

自然语言处理的多语言多模态嵌入

我们提出了一种新的判别模型，它从多语言和多模态数据中学习嵌入，因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估，以及对神经机器翻译进行评估，我们发现附加的多语言信号可以改进 ISR 和 STS 任务，并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表，从而产生强大的改进。

Feb, 2017

使用多语言文本进行图像搜索：图像和文本之间的跨模态学习方法

本文提出一个使用多语言嵌入词汇表达图像语义信息的框架，将图像和文本嵌入到一个唯一的分布向量空间中，从而使得我们可以使用描述图像内容的文本查询来搜索图像，同时也可以使用图像相似性，我们使用实证研究证明了该方法的效率。

Mar, 2019

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

大型多语种模型在跨语言零样本多模态学习中的应用

提出 MPM，一种在低资源语言中训练大型多模态模型的有效训练范例，通过多语言语言模型对仅在英语图像文本数据上预训练的多模态模型实现跨语言的零样本学习，取得了比母语语言的图像文本数据训练的模型还要好的图像文本生成性能。

Aug, 2023