May, 2023

E2TIMT:用于文本图像机器翻译的高效有效的模态适配器

TL;DR本文旨在提出一种新型的端对端的文本图像翻译模型,充分利用现有的 OCR 和 MT 数据集的知识来追求既有效又高效的框架。我们建立了一种新颖的模态适配器,有效地连接 OCR 编码器和 MT 解码器,并联合使用端到端 TIMT 损失和跨模态对比损失来对齐 OCR 和 MT 任务的特征分布。广泛的实验表明,所提出的方法比现有的两阶段级联模型和一阶段端对端模型具有更轻,更快的结构,而消融研究则验证了我们的方法的泛化性。