将全局视觉特征合并到基于注意力的神经机器翻译中

Jan, 2017

将全局视觉特征合并到基于注意力的神经机器翻译中

Incorporating Global Visual Features into Attention-Based Neural Machine Translation

Iacer Calixto, Qun Liu, Nick Campbell

TL;DR这篇论文介绍了多模态的注意力神经机器翻译模型，并将视觉特征整合在编码器和解码器的不同部分中，利用预训练的卷积神经网络提取全局图像特征，评估了不同策略整合全局图像特征的性能，并研究了添加合成多模态的多语言数据的影响，发现其对多模态模型有积极作用。实验结果表明，该模型在数据集上的性能明显优于同类短语级统计机器翻译模型，并是首次在该数据集上纯神经模型在全部评估指标上明显优于 PBSMT 模型。

Abstract

We introduce multi-modal, attention-based neural machine translation (NMT) models which incorporate visual features into different parts o

multi-modal attention-based neural machine translation global image features multilingual data

发现论文，激发创造

多模态神经机器翻译中图像有效性的实证研究

本文在多模态翻译任务（英文图片翻译德文）中比较了多种注意力机制，并评估了模型利用图像改进翻译的能力，虽然取得了 Multi30k 数据集上超越最先进水平的成绩，但我们也发现并报告了机器在翻译时表现出不同的不当行为。

Jul, 2017

多模态神经机器翻译中的双重注意力解码器

我们引入了一种多模态神经机器翻译模型，其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征，弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内多模态数据，还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。

Feb, 2017

基于短语级通用视觉表征的神经机器翻译

对比于其它多模式机器翻译 (MMT) 方法，我们提出了一种短语级别检索的 MMT 方法，从已有的文本 - 图像数据集中获得源输入的视觉信息，有利于缓解输入限制和数据稀疏的问题，并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型，尤其是在文本语境有限的情况下。

Mar, 2022

一种基于图形的多模态融合编码器在神经机器翻译中的应用

本论文提出了一种新型的基于图的多模态融合编码器，用于多模态神经机器翻译（NMT）中利用不同模态语义单元之间的细粒度语义对应关系，以优化多模态表示学习，并在 Multi30K 数据集上验证了模型的卓越性能。

Jul, 2020

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

关于多模式机器翻译的视觉特征

本文探究了视觉模型对多模态机器翻译（MMT）的影响，使用了如 Transformer 等强大的模型和增强功能来实验，并开发了一种选择性注意力模型来研究图像在 MMT 中的补丁级贡献。研究结果表明，强大的视觉模型有助于学习从视觉模态进行翻译，同时也建议在当前基准测试规模小且有偏差时，需要仔细研究 MMT 模型。

Mar, 2022

通过丰富视觉特征和视觉驱动的词向量提升多模态神经机器翻译

本文探讨了在多模态神经机器翻译 (MNMT) 中使用密集标注模型进行视觉特征提取和词嵌入，以提高图像描述翻译模型的效果。

Jul, 2017

编码期间调制和关注源图像改进了多模式翻译

提出了一种新的、全面的端到端方法，使用条件批量归一化来调制整个视觉输入处理，计算我们任务的最信息图像特征；此外，提出了一种源文本编码器表示条件下的注意机制，详述了我们的模型和图像分析管道，报告了在三个不同测试集上的最新的成果。

Dec, 2017