多模态对人类和机器在翻译和图像字幕中是否有帮助？

May, 2016

多模态对人类和机器在翻译和图像字幕中是否有帮助？

Does Multimodality Help Human and Machine for Translation and Image Captioning?

Ozan Caglayan, Walid Aransa, Yaxing Wang, Marc Masana, Mercedes García-Martínez...

TL;DR本文介绍了 LIUM 和 CVC 为 WMT16 Multimodal Machine Translation Challenge 开发的系统。我们在单模态数据和多模态数据的基础上，探索了各种比较方法，包括基于短语的系统和使用单模态或多模态数据训练的注意力循环神经网络模型。我们还进行了人类评估，以估计多模态数据对于人机翻译和图像描述生成的实用性。根据自动评估指标 BLEU 和 METEOR，我们的系统在这两个任务中获得了最佳结果。

Abstract

This paper presents the systems developed by LIUM and CVC for the WMT16 multimodal machine translation challenge. We explored various comparative methods, namely phrase-based systems and →

multimodal machine translation phrase-based systems attentional recurrent neural networks human evaluation bleu and meteor

发现论文，激发创造

LIUM-CVC 对 WMT17 多模态翻译任务的提交

本文介绍了由 LIUM 和 CVC 开发的单模态和多模态神经机器翻译系统，其中探索了两种多模态架构，最终的系统根据自动评估指标 METEOR 和 BLEU 在 En-De 和 En-Fr 语言对中排名第一。

Jul, 2017

LIUM-CVC 提交的 WMT18 多模式翻译任务

本文介绍了由 LIUM 和 CVC 开发的多模态神经机器翻译系统，描述了他们在 WMT18 多模态翻译共享任务中提出的几种修改架构，以更好地整合卷积特征和使用编码器方面的信息来优化模型，最终在英法和英德语言对上以 METEOR 自动评估指标为参考，获得第一和第二名。

Sep, 2018

WMT17 多模式翻译任务的 CUNI 系统

本文描述了我们在 WMT17 多模态翻译任务中的提交内容，其中通过使用来自平行语料和回译的方法获取了额外的数据，建立了纯文本神经翻译模型进行多模态翻译，并使用最佳系统将英语字幕翻译为目标语言。我们还展示了一些未能有效提高翻译性能的负面结果。

Jul, 2017

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

多模机器翻译和多语言图像描述第二次共享任务的发现

该论文介绍了针对多模态机器翻译和多语言图像描述的第二个共享任务的结果。该任务涉及新的法语语言和两个新的测试集，并改变了多语言图像描述任务的测试方式，只提供图像，即图像只描述。与去年相比，多模态系统得到了改进，但纯文本系统仍然具有竞争力。

Oct, 2017

多模态机器翻译调查：任务、方法与挑战

多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域，本文通过综述先前的 99 项研究工作，全面总结了主要模型、数据集和评估指标，分析了各种因素对模型性能的影响，并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同，我们的调查从不同角度深入总结了这些新兴类型，以便为研究人员提供对目前研究状况的更好理解。

May, 2024

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016

超越三元组：利用最多数据进行多模态机器翻译

通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Dec, 2022