多模态图像描述翻译中的基准

ACLJan, 2016

Multimodal Pivots for Image Caption Translation

Julian Hitschler, Shigehiko Schamoni, Stefan Riezler

TL;DR本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索，并使用最相似图像的描述进行跨语言重新排序，达到优化的效果。本方法不依赖于大量域内平行数据的可用性，而仅依赖于大量单语言字幕图像数据集的可用性，以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示，与强基线相比，我们的方法提高了 1 个 BLEU 分数。

Abstract

We present an approach to improve statistical machine translation of image descriptions by multimodal pivots defined in visual space. The key idea is to perform →

statistical machine translation multimodal pivots image retrieval crosslingual reranking convolutional neural networks

发现论文，激发创造

学习多语言多模态表示的图像枢转

本文介绍了一种用于匹配不同语言中的图像和句子的多模态多语言表达式学习模型，其目的是提高多语言版本的图像搜索和理解，在图像描述排名及语义文本相似度方面实现了最先进的性能。

Jul, 2017

通过语言旋转进行非配对图像字幕生成

通过 “语言中转” 方法，该研究解决了跨语言图像和自然语言生成的问题，其基本思路是利用中文语言来架设桥梁，以实现跨语言的图像生成任务。实验表明，该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。

Mar, 2018

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020

从词到句：基于视觉桥接的零资源机器翻译渐进式学习方法

本文提出了一种基于图片引导的无资源机器翻译渐进式学习方法，从词级别开始逐步学习，最终将学习到的词汇级别的翻译应用在句子级别的翻译上，从而有效减少了图片噪声对模型学习的干扰，在两个广泛使用的基于图像引导的翻译数据集上，该方法明显优于其他最先进的方法。

Jun, 2019

跨模态检索任务的多语言词嵌入对齐

提出了一种新的方法来学习多模态多语言嵌入，用于匹配两种语言中图像及其相关标题，结合两个现有的目标函数，在模型中调整现有语言之间的词嵌入对齐，证明该方法实现了更好的泛化，在文本 - 图像和图像 - 文本检索任务中，以及标题 - 标题相似性任务中取得了最先进的性能，使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。

Oct, 2019

多模态编解码网络带多媒体中心的零资源机器翻译

使用多模式嵌入表示法构建神经机器翻译系统，在没有平行语料库的情况下，通过图像和文本信息之间的相关性间接估计两种语言之间的相关度，并在最终测试阶段中，只需要源语言的文本作为翻译输入。在实验中，我们使用端到端模型优化多模态编码器中的排序损失和解码器中的交叉熵损失，取得了不错的翻译结果。

Nov, 2016

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

神经序列模型中的多语言图像描述

通过神经机器翻译和神经图像描述相结合的方法，在多语言图像描述任务中使用序列生成模型作为研究方法，我们发现相较于只针对单个语言的模型，使用多语言训练的模型在英语和德语对齐的 IAPR-TC12 数据集上的 BLEU4 和 Meteor 分数显著且实质性地提高了。

Oct, 2015

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017

使用中间稳定化技术进行跨模态语言生成，以实现网络规模的语言覆盖

研究问题是如何解决数据饥渴模型与缺乏非英语注释的问题，提出了一种名为 PLuGS 的方法，该方法直接利用英语注释（gold data）及其机器翻译版本（silver data）进行训练，从而在运行时生成目标语言字幕。该方法在使用 Open Images 数据集中的图像进行大领域测试时，在 5 种不同的目标语言中表现优异。此外，研究者还发现了一个有趣的现象：PLuGS 模型生成的英文字幕比原始的单语英文模型生成的副标题更好。

May, 2020