视觉感知下的翻译精炼

ACLJun, 2019

Distilling Translations with Visual Awareness

Julia Ive, Pranava Madhyastha, Lucia Specia

TL;DR我们提出了一个翻译和完善的方法，通过使用视觉信息来提高目标语言文本上下文的使用以及恢复源语言中错误或缺失的单词，从而实现多模态机器翻译的最新成果。

Abstract

Previous work on multimodal machine translation has shown that visual information is only needed in very specific cases, for example in the presence of ambiguous words where the textual context is not sufficient. As a consequence, models tend to learn to ignore this information. We pro

multimodal machine translation visual information translate-and-refine approach state of the art results recovering missing words

发现论文，激发创造

多模态机器翻译中视觉上下文的必要性探究

本文中，我们研究了多模式机器翻译（MMT）中视觉模态的贡献，通过分析证明，即使在有限的文本和文本上下文的情况下，模型也能够利用视觉输入来生成更好的翻译结果。

Mar, 2019

从信息论的角度增强多模态神经机器翻译的视觉意识

本文旨在从信息论角度提高多模式机器翻译的视觉感知能力，通过将信息量化为源特定信息和目标特定信息，并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明，我们的方法可以显著提高 MMT 模型的视觉感知能力，并在两个数据集上取得了优秀的结果。

Oct, 2022

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

探索使用真实数据集的多模式机器翻译中视觉模态的必要性

近期在多模式机器翻译（MMT）领域的研究表明，视觉模态在翻译效果方面要么可有可无，要么只提供了边缘化优势。然而，这些结论大多来自于对有限的双语句子 - 图像配对数据集（如 Multi30k）的实验结果分析，而这类数据集中，一个双语平行句对的内容必须由手工标注的图像很好地表达，这与真实的翻译场景不同。在这项工作中，我们遵循了唐等人（2022 年）提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集，深入研究视觉模态对翻译效果的影响。通过全面的探索性任务，我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是，翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外，我们的结果表明，视觉信息在多模式翻译中发挥了补充作用，可以被替代。

Apr, 2024

多模机器翻译的视觉一致性正则化训练

本研究提出了视觉协议规范化训练的方法，通过引入简单而有效的多头协同注意模型，同时训练源到目标和目标到源的翻译模型，鼓励它们在生成语义等效的视觉词汇时共享相同的视觉信息。结果表明，该方法在 Multi30k 数据集上的性能优于竞争基线，并且进一步分析证明，提出的规范化训练能够有效地提高注意力在图像上的一致性，从而更好地利用视觉信息。

Dec, 2019

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018