基于短语级通用视觉表征的神经机器翻译

ACLMar, 2022

基于短语级通用视觉表征的神经机器翻译

Neural Machine Translation with Phrase-Level Universal Visual Representations

Qingkai Fang, Yang Feng

TL;DR对比于其它多模式机器翻译 (MMT) 方法，我们提出了一种短语级别检索的 MMT 方法，从已有的文本 - 图像数据集中获得源输入的视觉信息，有利于缓解输入限制和数据稀疏的问题，并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型，尤其是在文本语境有限的情况下。

Abstract

multimodal machine translation (MMT) aims to improve neural machine translation (NMT) with additional visual information, but most existing MMT methods require paired input of source sentence and image, which mak

multimodal machine translation phrase-level retrieval-based method visual information conditional variational auto-encoder data sparsity

发现论文，激发创造

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022

从信息论的角度增强多模态神经机器翻译的视觉意识

本文旨在从信息论角度提高多模式机器翻译的视觉感知能力，通过将信息量化为源特定信息和目标特定信息，并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明，我们的方法可以显著提高 MMT 模型的视觉感知能力，并在两个数据集上取得了优秀的结果。

Oct, 2022

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

用于同时多模机器翻译的监督式视觉注意力

本文提出基于 Transformer 的多模式机器翻译 (MMT) 与视觉注意力机制相结合的模型，并使用带标签的短语 - 区域对齐的辅助信号指导其视觉注意力机制，实现目前最佳 BLEU 和 METEOR 分数的提升。

Jan, 2022

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

多模态机器翻译中视觉上下文的必要性探究

本文中，我们研究了多模式机器翻译（MMT）中视觉模态的贡献，通过分析证明，即使在有限的文本和文本上下文的情况下，模型也能够利用视觉输入来生成更好的翻译结果。

Mar, 2019

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

将全局视觉特征合并到基于注意力的神经机器翻译中

这篇论文介绍了多模态的注意力神经机器翻译模型，并将视觉特征整合在编码器和解码器的不同部分中，利用预训练的卷积神经网络提取全局图像特征，评估了不同策略整合全局图像特征的性能，并研究了添加合成多模态的多语言数据的影响，发现其对多模态模型有积极作用。实验结果表明，该模型在数据集上的性能明显优于同类短语级统计机器翻译模型，并是首次在该数据集上纯神经模型在全部评估指标上明显优于 PBSMT 模型。

Jan, 2017

基于图文自监督训练的多模态预训练模型泛化算法

本研究提出了一种多模态预训练泛化算法，有效克服了神经机器翻译中缺乏视觉信息和准确性等难题，通过搜索引擎从现有句子中寻找多张图片，通过视觉信息与文本的关系完成图文自监督训练任务，得到更加有效的视觉信息，并证明基于该算法的翻译效果比基线模型高出 0.5 BLEU。

Feb, 2023