Mar, 2024

为纯文本翻译模型添加多模态功能

TL;DR对于目前的多模式机器翻译 (MMT) 工作来说,使用 Multi30k 数据集进行训练和评估导致模型过拟合到极高程度,从而在针对典型的纯文本测试集(如 WMT newstest 数据集)时表现非常差。为了在 Multi30k 和纯文本数据集上都表现出色,本文基于高效纯文本机器翻译 (MT) 模型作为 MMT 模型的起点,并通过使用视觉 - 文本适配器层和门控机制将 MT 模型逐步转换为 MMT 模型,通过 1) 使用基于视觉的源文本遮蔽进行预训练和 2) 在 Multi30k 上进行微调。