3AM: 一个模糊感知的多模式机器翻译数据集

Apr, 2024

3AM: 一个模糊感知的多模式机器翻译数据集

3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset

Xinyu Ma, Xuebo Liu, Derek F. Wong, Jun Rao, Bei Li...

TL;DR通过引入 3AM 数据集，本文提出了一种新的解决方案来改善多模态机器翻译中存在的视觉信息不足的问题，并通过提供更具含糊性和更多种类的数据集，实现了对现有多模态机器翻译数据集更好的训练效果，进一步促进了多模态学习领域的研究和探索。

Abstract

multimodal machine translation (MMT) is a challenging task that seeks to improve translation quality by incorporating visual information. However, recent studies have indicated that the →

multimodal machine translation visual information 3am dataset ambiguity-aware mmt models

发现论文，激发创造

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

超越三元组：利用最多数据进行多模态机器翻译

通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Dec, 2022

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

通过视觉问答对将探测信号融入多模态机器翻译

本研究论文通过深入研究多模式机器翻译（MMT），探讨了 MMT 系统在源文本完整时对视觉信息的敏感性降低的现象，并提出了一种新的方法来生成并行的视觉问答（VQA）风格对，以促进更强大的跨模态交互。使用大型语言模型（LLMs），将 MMT 中的探测信号显式建模为 VQA 风格数据，创建了 Multi30K-VQA 数据集，并引入了 MMT-VQA 多任务学习框架，将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。本文提供的代码和数据可在 https://github.com/libeineu/MMT-VQA 获取。

Oct, 2023

视频辅助多模态机器翻译

通过引入 EVA 数据集和 SAFA 模型，使用视频信息进行歧义消除的多模式机器翻译 (MMT) 模型能够有效提高翻译性能。

Oct, 2023

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

M3T: 多模文档级机器翻译的新基准数据集

本文介绍了 M3T，这是一个新颖的基准数据集，旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现，并解决了现实世界应用中丰富文本布局所带来的挑战。

Jun, 2024

LVP-M3: 多语言多模机器翻译的语言感知可视提示

本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务，通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题；通过建立两个新的多语言 MMT 基准数据集，并提出了一种基于视觉提示的有效基准模型 LVP-M3，该模型包括三个阶段（token 编码、语言感知的视觉提示生成和语言翻译），实验结果表明该方法在多语言 MMT 中的有效性。

Oct, 2022

基于短语级通用视觉表征的神经机器翻译

对比于其它多模式机器翻译 (MMT) 方法，我们提出了一种短语级别检索的 MMT 方法，从已有的文本 - 图像数据集中获得源输入的视觉信息，有利于缓解输入限制和数据稀疏的问题，并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型，尤其是在文本语境有限的情况下。

Mar, 2022

从信息论的角度增强多模态神经机器翻译的视觉意识

本文旨在从信息论角度提高多模式机器翻译的视觉感知能力，通过将信息量化为源特定信息和目标特定信息，并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明，我们的方法可以显著提高 MMT 模型的视觉感知能力，并在两个数据集上取得了优秀的结果。

Oct, 2022