Mar, 2024

检测多模式机器翻译的具体视觉符号

TL;DR通过多模式机器翻译 (MMT) 系统中的视觉定位和屏蔽的挑战,我们提出了用于检测和选择与视觉有关的文本令牌进行屏蔽的新方法,包括自然语言处理 (NLP) 检测、目标检测检测和联合检测 - 验证技术。我们还引入了选择已检测到的令牌的新方法,包括最短 n 个令牌、最长 n 个令牌和所有已检测到的具体令牌。在合成的多模式数据集上利用 GRAM MMT 结构训练模型,通过基准模型显示了在翻译任务中性能的改进和对视觉上下文的改进使用。