Apr, 2024

探索使用真实数据集的多模式机器翻译中视觉模态的必要性

TL;DR近期在多模式机器翻译(MMT)领域的研究表明,视觉模态在翻译效果方面要么可有可无,要么只提供了边缘化优势。然而,这些结论大多来自于对有限的双语句子 - 图像配对数据集(如 Multi30k)的实验结果分析,而这类数据集中,一个双语平行句对的内容必须由手工标注的图像很好地表达,这与真实的翻译场景不同。在这项工作中,我们遵循了唐等人(2022 年)提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集,深入研究视觉模态对翻译效果的影响。通过全面的探索性任务,我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是,翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外,我们的结果表明,视觉信息在多模式翻译中发挥了补充作用,可以被替代。