ECCVApr, 2020

学习将多语言表示扩展到视觉语言任务

TL;DR提出一种 SMALR 模型,它支持多种语言,其许多单词具有固定的语言不可知表示,同时保留少量的特定语言特征,并且它使用掩模交叉语言建模损失来对齐其他语言的上下文特征,具有较好的跨语言一致性。验证了该模型在多语言图像 - 句子检索任务上的有效性。