多模态神经机器翻译中的双重注意力解码器

Feb, 2017

多模态神经机器翻译中的双重注意力解码器

Doubly-Attentive Decoder for Multi-modal Neural Machine Translation

Iacer Calixto, Qun Liu, Nick Campbell

TL;DR我们引入了一种多模态神经机器翻译模型，其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征，弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内多模态数据，还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。

Abstract

We introduce a multi-modal neural machine translation model in which a doubly-attentive decoder naturally incorporates spatial visual features

multi-modal neural machine translation doubly-attentive decoder spatial visual features attention mechanisms state-of-the-art results

发现论文，激发创造

双重注意力变形器机器翻译

本文提出了一个双重注意力变压器机器翻译模型，通过预训练的卷积神经网络联接空间视觉特征，通过两个分离的注意力部件，在加强的多头注意力层中自由处理源语言单词和图像部分，并在目标语言生成单词时，发现该模型可以有效地利用非常稀少的多模数据集和大规模文本数据集，实现了在英德多模机器翻译任务中的最佳效果

Jul, 2018

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

多模态神经机器翻译中图像有效性的实证研究

本文在多模态翻译任务（英文图片翻译德文）中比较了多种注意力机制，并评估了模型利用图像改进翻译的能力，虽然取得了 Multi30k 数据集上超越最先进水平的成绩，但我们也发现并报告了机器在翻译时表现出不同的不当行为。

Jul, 2017

将全局视觉特征合并到基于注意力的神经机器翻译中

这篇论文介绍了多模态的注意力神经机器翻译模型，并将视觉特征整合在编码器和解码器的不同部分中，利用预训练的卷积神经网络提取全局图像特征，评估了不同策略整合全局图像特征的性能，并研究了添加合成多模态的多语言数据的影响，发现其对多模态模型有积极作用。实验结果表明，该模型在数据集上的性能明显优于同类短语级统计机器翻译模型，并是首次在该数据集上纯神经模型在全部评估指标上明显优于 PBSMT 模型。

Jan, 2017

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

编码期间调制和关注源图像改进了多模式翻译

提出了一种新的、全面的端到端方法，使用条件批量归一化来调制整个视觉输入处理，计算我们任务的最信息图像特征；此外，提出了一种源文本编码器表示条件下的注意机制，详述了我们的模型和图像分析管道，报告了在三个不同测试集上的最新的成果。

Dec, 2017

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016

多模态编解码网络带多媒体中心的零资源机器翻译

使用多模式嵌入表示法构建神经机器翻译系统，在没有平行语料库的情况下，通过图像和文本信息之间的相关性间接估计两种语言之间的相关度，并在最终测试阶段中，只需要源语言的文本作为翻译输入。在实验中，我们使用端到端模型优化多模态编码器中的排序损失和解码器中的交叉熵损失，取得了不错的翻译结果。

Nov, 2016

一种基于图形的多模态融合编码器在神经机器翻译中的应用

本论文提出了一种新型的基于图的多模态融合编码器，用于多模态神经机器翻译（NMT）中利用不同模态语义单元之间的细粒度语义对应关系，以优化多模态表示学习，并在 Multi30K 数据集上验证了模型的卓越性能。

Jul, 2020