Jul, 2023

嵌入式异构关注变换器用于跨语言图像字幕生成

TL;DR我们提出了一种嵌入的异构关注转换器(EHAT),用于建立跨领域的推理路径,以进行跨语言图像字幕生成,并集成到变压器中。EHAT 由掩蔽的异构交叉关注(MHCA)、异构关注推理网络(HARN)和异构协同关注(HCA)组成,在编码器中通过特殊的异构关注实现跨领域集成,并使单个模型生成两种语言的字幕。我们在 MSCOCO 数据集上进行了测试,生成英文和中文,我们的实验证明,我们的方法甚至超过了先进的单语方法。