超越三元组:利用最多数据进行多模态机器翻译
该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法,同时还发布了 CoMMuTE 数据集,并在该数据集上取得了显著的性能提升。
Dec, 2022
对于目前的多模式机器翻译 (MMT) 工作来说,使用 Multi30k 数据集进行训练和评估导致模型过拟合到极高程度,从而在针对典型的纯文本测试集(如 WMT newstest 数据集)时表现非常差。为了在 Multi30k 和纯文本数据集上都表现出色,本文基于高效纯文本机器翻译 (MT) 模型作为 MMT 模型的起点,并通过使用视觉 - 文本适配器层和门控机制将 MT 模型逐步转换为 MMT 模型,通过 1) 使用基于视觉的源文本遮蔽进行预训练和 2) 在 Multi30k 上进行微调。
Mar, 2024
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必须经过仔细考虑。
Sep, 2021
提出了一个评估框架,用于评估多模式机器翻译模型在利用视觉信息辅助翻译任务和翻译复杂句子方面的能力,并通过使用 CoMMuTE 评估框架、WMT 新闻翻译任务测试集和 Multi30k 测试集来评估多模式机器翻译模型的性能,发现这些模型在面对纯文本翻译时表现下降。
Mar, 2024
通过引入 3AM 数据集,本文提出了一种新的解决方案来改善多模态机器翻译中存在的视觉信息不足的问题,并通过提供更具含糊性和更多种类的数据集,实现了对现有多模态机器翻译数据集更好的训练效果,进一步促进了多模态学习领域的研究和探索。
Apr, 2024
我们提出了一种新颖的 Tri-Modal Translation(TMT)模型,它能够在语音、图像和文本之间进行任意模态的翻译,并通过将语音和图像数据标记为离散标记来统一界面并显著降低计算成本。通过在 TMT 中使用多模态编码器 - 解码器进行核心翻译,同时仅在标记化和解标记化阶段进行模态特定的处理,我们评估了所提出的 TMT 在六个模态翻译任务上的性能,并且 TMT 始终优于单模型对应物,表明统一任务不仅在实用性上有益,而且在性能上也有益。
Feb, 2024
通过设计可解释的多模态翻译模型,我们发现多模态信息对于机器翻译的提升并不显著,相反是由于正则化效应带来的,这一发现强调了可解释性在未来研究中的重要性及其作用。
May, 2021
本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务,通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题;通过建立两个新的多语言 MMT 基准数据集,并提出了一种基于视觉提示的有效基准模型 LVP-M3,该模型包括三个阶段(token 编码、语言感知的视觉提示生成和语言翻译),实验结果表明该方法在多语言 MMT 中的有效性。
Oct, 2022
近期在多模式机器翻译(MMT)领域的研究表明,视觉模态在翻译效果方面要么可有可无,要么只提供了边缘化优势。然而,这些结论大多来自于对有限的双语句子 - 图像配对数据集(如 Multi30k)的实验结果分析,而这类数据集中,一个双语平行句对的内容必须由手工标注的图像很好地表达,这与真实的翻译场景不同。在这项工作中,我们遵循了唐等人(2022 年)提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集,深入研究视觉模态对翻译效果的影响。通过全面的探索性任务,我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是,翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外,我们的结果表明,视觉信息在多模式翻译中发挥了补充作用,可以被替代。
Apr, 2024