具有图像和文本的潜在语义的神经机器翻译

Nov, 2016

具有图像和文本的潜在语义的神经机器翻译

Neural Machine Translation with Latent Semantic of Image and Text

Joji Toyama, Masanori Misono, Masahiro Suzuki, Kotaro Nakayama, Yutaka Matsuo

TL;DR研究使用潜变量从文本和图像提取语义信息来提高基于注意力机制的神经机器翻译效果，实验结果表明此方法在英德翻译任务中优于基线模型。

Abstract

Although attention-based neural machine translation have achieved great success, attention-mechanism cannot capture the entire meaning of the source sentence because the attention mechanism generates a target wor

neural machine translation attention mechanism latent variable image information end-to-end

发现论文，激发创造

多模态神经机器翻译中图像有效性的实证研究

本文在多模态翻译任务（英文图片翻译德文）中比较了多种注意力机制，并评估了模型利用图像改进翻译的能力，虽然取得了 Multi30k 数据集上超越最先进水平的成绩，但我们也发现并报告了机器在翻译时表现出不同的不当行为。

Jul, 2017

多模翻译的隐变量模型

本研究提出一种多模态神经机器翻译模型，通过潜在变量模型来建模视觉和文本特征之间的交互，预测图像特征和提高翻译性能，可以在训练阶段利用视觉和文本输入，而在测试阶段不需要图像输入，通过预测图像特征等优化，同时利用合成数据等附加训练方式进一步提高翻译性能。

Nov, 2018

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022

生成性想象提高机器翻译

本文提出一种基于视觉想象的神经机器翻译方法 ImagiT，仅需要源语言句子即可生成目标翻译，并证明该方法较传统文本翻译方法表现更好，揭示想象过程在修复缺失信息时的重要性。

Sep, 2020

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016

将全局视觉特征合并到基于注意力的神经机器翻译中

这篇论文介绍了多模态的注意力神经机器翻译模型，并将视觉特征整合在编码器和解码器的不同部分中，利用预训练的卷积神经网络提取全局图像特征，评估了不同策略整合全局图像特征的性能，并研究了添加合成多模态的多语言数据的影响，发现其对多模态模型有积极作用。实验结果表明，该模型在数据集上的性能明显优于同类短语级统计机器翻译模型，并是首次在该数据集上纯神经模型在全部评估指标上明显优于 PBSMT 模型。

Jan, 2017

条件变分自编码器用于神经机器翻译

探讨使用潜变量模型实现神经机器翻译中的条件文本生成性能，通过引入连续潜变量来增强编码器 - 解码器 NMT 范例，利用 Inference Network 中的共同关注机制来扩展该模型，使用不同方法试图缓解后验崩溃问题，并且探究学习潜空间的能力，该模型能有效地优化翻译模型。

Dec, 2018

基于短语级通用视觉表征的神经机器翻译

对比于其它多模式机器翻译 (MMT) 方法，我们提出了一种短语级别检索的 MMT 方法，从已有的文本 - 图像数据集中获得源输入的视觉信息，有利于缓解输入限制和数据稀疏的问题，并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型，尤其是在文本语境有限的情况下。

Mar, 2022

面向端到端的图像内神经机器翻译

本文旨在研究在图像中的机器翻译任务：将包含一种语言文本的图像转化为包含另一种语言文本的图像。我们提出了一个基于神经网络的端到端模型，并证明纯像素级监督可以得到很好的初步结果。我们进行了定量和定性评估，并讨论了一些常见的失误模式。最后，我们提出了未来工作的方向。

Oct, 2020

神经机器翻译中的潜在句子结构建模

本篇研究探究了使用不同编码器进行神经机器翻译（NMT）时，受监督 parser 预测的语言结构和拥有潜在变量的句子结构在推断神经网络执行机器翻译任务时的优化作用。结果表明，使用 RNN 编码器时，模型几乎不使用结构感知工具；相反，CNN 和基于词嵌入的编码器依赖于潜在的图表达，能够将有用的潜在依赖编码入网络，在某些情况下能够覆盖较长距离的依赖。

Jan, 2019