超越三元组：利用最多数据进行多模态机器翻译

Dec, 2022

超越三元组：利用最多数据进行多模态机器翻译

Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation

Yaoming Zhu, Zewei Sun, Shanbo Cheng, Yuyang Huang, Liwei Wu...

TL;DR通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Abstract

multimodal machine translation (MMT) aims to improve translation quality by incorporating information from other modalities, such as vision. Previous MMT systems mainly focus on better access and use of visual in

multimodal machine translation vision datasets non-triple data translation performance

发现论文，激发创造

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

为纯文本翻译模型添加多模态功能

对于目前的多模式机器翻译 (MMT) 工作来说，使用 Multi30k 数据集进行训练和评估导致模型过拟合到极高程度，从而在针对典型的纯文本测试集（如 WMT newstest 数据集）时表现非常差。为了在 Multi30k 和纯文本数据集上都表现出色，本文基于高效纯文本机器翻译 (MT) 模型作为 MMT 模型的起点，并通过使用视觉 - 文本适配器层和门控机制将 MT 模型逐步转换为 MMT 模型，通过 1) 使用基于视觉的源文本遮蔽进行预训练和 2) 在 Multi30k 上进行微调。

Mar, 2024

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

对文本数据集评估多模态翻译模型的理由

提出了一个评估框架，用于评估多模式机器翻译模型在利用视觉信息辅助翻译任务和翻译复杂句子方面的能力，并通过使用 CoMMuTE 评估框架、WMT 新闻翻译任务测试集和 Multi30k 测试集来评估多模式机器翻译模型的性能，发现这些模型在面对纯文本翻译时表现下降。

Mar, 2024

3AM: 一个模糊感知的多模式机器翻译数据集

通过引入 3AM 数据集，本文提出了一种新的解决方案来改善多模态机器翻译中存在的视觉信息不足的问题，并通过提供更具含糊性和更多种类的数据集，实现了对现有多模态机器翻译数据集更好的训练效果，进一步促进了多模态学习领域的研究和探索。

Apr, 2024

TMT: 通过将不同形式阐述视为不同语言的三模式语音、图像和文本之间的翻译

我们提出了一种新颖的 Tri-Modal Translation（TMT）模型，它能够在语音、图像和文本之间进行任意模态的翻译，并通过将语音和图像数据标记为离散标记来统一界面并显著降低计算成本。通过在 TMT 中使用多模态编码器 - 解码器进行核心翻译，同时仅在标记化和解标记化阶段进行模态特定的处理，我们评估了所提出的 TMT 在六个模态翻译任务上的性能，并且 TMT 始终优于单模型对应物，表明统一任务不仅在实用性上有益，而且在性能上也有益。

Feb, 2024

多模机器翻译中视觉语境需要的经验证实

通过设计可解释的多模态翻译模型，我们发现多模态信息对于机器翻译的提升并不显著，相反是由于正则化效应带来的，这一发现强调了可解释性在未来研究中的重要性及其作用。

May, 2021

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

LVP-M3: 多语言多模机器翻译的语言感知可视提示

本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务，通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题；通过建立两个新的多语言 MMT 基准数据集，并提出了一种基于视觉提示的有效基准模型 LVP-M3，该模型包括三个阶段（token 编码、语言感知的视觉提示生成和语言翻译），实验结果表明该方法在多语言 MMT 中的有效性。

Oct, 2022

探索使用真实数据集的多模式机器翻译中视觉模态的必要性

近期在多模式机器翻译（MMT）领域的研究表明，视觉模态在翻译效果方面要么可有可无，要么只提供了边缘化优势。然而，这些结论大多来自于对有限的双语句子 - 图像配对数据集（如 Multi30k）的实验结果分析，而这类数据集中，一个双语平行句对的内容必须由手工标注的图像很好地表达，这与真实的翻译场景不同。在这项工作中，我们遵循了唐等人（2022 年）提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集，深入研究视觉模态对翻译效果的影响。通过全面的探索性任务，我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是，翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外，我们的结果表明，视觉信息在多模式翻译中发挥了补充作用，可以被替代。

Apr, 2024