用于同时多模机器翻译的监督式视觉注意力

Jan, 2022

用于同时多模机器翻译的监督式视觉注意力

Supervised Visual Attention for Simultaneous Multimodal Machine Translation

Veneta Haralampieva, Ozan Caglayan, Lucia Specia

TL;DR本文提出基于 Transformer 的多模式机器翻译 (MMT) 与视觉注意力机制相结合的模型，并使用带标签的短语 - 区域对齐的辅助信号指导其视觉注意力机制，实现目前最佳 BLEU 和 METEOR 分数的提升。

Abstract

Recently, there has been a surge in research in multimodal machine translation (MMT), where additional modalities such as images are used to improve translation quality of textual systems. A particular use for such multimodal systems is the task of simultaneous machine translation, whe

multimodal machine translation simultaneous machine translation transformer-based architecture visual attention mechanism supervised learning

发现论文，激发创造

从信息论的角度增强多模态神经机器翻译的视觉意识

本文旨在从信息论角度提高多模式机器翻译的视觉感知能力，通过将信息量化为源特定信息和目标特定信息，并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明，我们的方法可以显著提高 MMT 模型的视觉感知能力，并在两个数据集上取得了优秀的结果。

Oct, 2022

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

关于多模式机器翻译的视觉特征

本文探究了视觉模型对多模态机器翻译（MMT）的影响，使用了如 Transformer 等强大的模型和增强功能来实验，并开发了一种选择性注意力模型来研究图像在 MMT 中的补丁级贡献。研究结果表明，强大的视觉模型有助于学习从视觉模态进行翻译，同时也建议在当前基准测试规模小且有偏差时，需要仔细研究 MMT 模型。

Mar, 2022

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

基于短语级通用视觉表征的神经机器翻译

对比于其它多模式机器翻译 (MMT) 方法，我们提出了一种短语级别检索的 MMT 方法，从已有的文本 - 图像数据集中获得源输入的视觉信息，有利于缓解输入限制和数据稀疏的问题，并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型，尤其是在文本语境有限的情况下。

Mar, 2022

利用视觉上下文的同时机器翻译

本文旨在研究如何利用视觉信息来弥补缺失的源文本背景，评估不同的多模态方法和视觉特征对最先进的同时机器翻译 (SiMT) 框架的影响。结果表明，视觉背景是有帮助的，基于明确的物体区域信息的可视化模型优于常用的全局特征，在低延迟情境下的表现可提高 3 个 BLEU 分数。我们的定性分析展示，只有多模态系统才能正常翻译英语到标记性别的语言，并处理英语和法语之间的形容词和名词词序等差异。

Sep, 2020

多模机器翻译中的 Gumbel-Attention

本研究提出一种新的 Gumbel-Attention 多模机器翻译模型，通过对图像特征进行选择，保留与文本相关的信息，进而提高多模机器翻译模型的翻译质量。

Mar, 2021

多模态神经机器翻译中图像有效性的实证研究

本文在多模态翻译任务（英文图片翻译德文）中比较了多种注意力机制，并评估了模型利用图像改进翻译的能力，虽然取得了 Multi30k 数据集上超越最先进水平的成绩，但我们也发现并报告了机器在翻译时表现出不同的不当行为。

Jul, 2017