想象力提高多模翻译

May, 2017

Imagination improves Multimodal Translation

Desmond Elliott, Ákos Kádár

TL;DR本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

Abstract

We decompose multimodal translation into two sub-tasks: learning to translate and learning visually grounded representations. In a multitask learning framework, translations are learned in an →

multimodal translation attention-based encoder-decoder visually grounded representations external datasets performance

发现论文，激发创造

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

多模态神经机器翻译中的双重注意力解码器

我们引入了一种多模态神经机器翻译模型，其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征，弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内多模态数据，还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。

Feb, 2017

生成性想象提高机器翻译

本文提出一种基于视觉想象的神经机器翻译方法 ImagiT，仅需要源语言句子即可生成目标翻译，并证明该方法较传统文本翻译方法表现更好，揭示想象过程在修复缺失信息时的重要性。

Sep, 2020

编码期间调制和关注源图像改进了多模式翻译

提出了一种新的、全面的端到端方法，使用条件批量归一化来调制整个视觉输入处理，计算我们任务的最信息图像特征；此外，提出了一种源文本编码器表示条件下的注意机制，详述了我们的模型和图像分析管道，报告了在三个不同测试集上的最新的成果。

Dec, 2017

通过学习解缠映像映射进行多映像转换

本研究提出了一种基于编码 - 解码框架和有条件对抗性训练的统一模型，用于实现多模态和多域图像翻译任务。实验结果表明，该方法优于现有的方法。

Sep, 2019

通过丰富视觉特征和视觉驱动的词向量提升多模态神经机器翻译

本文探讨了在多模态神经机器翻译 (MNMT) 中使用密集标注模型进行视觉特征提取和词嵌入，以提高图像描述翻译模型的效果。