多模机器翻译的视觉一致性正则化训练

AAAIDec, 2019

多模机器翻译的视觉一致性正则化训练

Visual Agreement Regularized Training for Multi-Modal Machine Translation

Pengcheng Yang, Boxing Chen, Pei Zhang, Xu Sun

TL;DR本研究提出了视觉协议规范化训练的方法，通过引入简单而有效的多头协同注意模型，同时训练源到目标和目标到源的翻译模型，鼓励它们在生成语义等效的视觉词汇时共享相同的视觉信息。结果表明，该方法在 Multi30k 数据集上的性能优于竞争基线，并且进一步分析证明，提出的规范化训练能够有效地提高注意力在图像上的一致性，从而更好地利用视觉信息。

Abstract

multi-modal machine translation aims at translating the source sentence into a different language in the presence of the paired image. Previous work suggests that additional visual information only provides dispe

multi-modal machine translation visual information regularized training co-attention model multi30k dataset

发现论文，激发创造

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

基于图文自监督训练的多模态预训练模型泛化算法

本研究提出了一种多模态预训练泛化算法，有效克服了神经机器翻译中缺乏视觉信息和准确性等难题，通过搜索引擎从现有句子中寻找多张图片，通过视觉信息与文本的关系完成图文自监督训练任务，得到更加有效的视觉信息，并证明基于该算法的翻译效果比基线模型高出 0.5 BLEU。

Feb, 2023

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

视觉感知下的翻译精炼

我们提出了一个翻译和完善的方法，通过使用视觉信息来提高目标语言文本上下文的使用以及恢复源语言中错误或缺失的单词，从而实现多模态机器翻译的最新成果。

Jun, 2019

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017

RC3：正则化对比交叉语言交叉模态预训练

该研究提出了 RC^3 pre-training 方法，该方法利用弱对齐的多语言图像 - 文本对进行跨语言、跨模态的视觉 - 语言预训练，并在下游的多模态任务中表现出更强的效果。

May, 2023

探索使用真实数据集的多模式机器翻译中视觉模态的必要性

近期在多模式机器翻译（MMT）领域的研究表明，视觉模态在翻译效果方面要么可有可无，要么只提供了边缘化优势。然而，这些结论大多来自于对有限的双语句子 - 图像配对数据集（如 Multi30k）的实验结果分析，而这类数据集中，一个双语平行句对的内容必须由手工标注的图像很好地表达，这与真实的翻译场景不同。在这项工作中，我们遵循了唐等人（2022 年）提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集，深入研究视觉模态对翻译效果的影响。通过全面的探索性任务，我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是，翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外，我们的结果表明，视觉信息在多模式翻译中发挥了补充作用，可以被替代。

Apr, 2024

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022