CVPRMay, 2020

T-VSE: 基于 Transformer 的视觉语义嵌入

TL;DR本文研究了基于 Transformer 模型的跨模态图文检索问题,发现在大规模电商产品数据集上,相比于 RNN 等传统语言模型以及简单的平均词向量模型,基于 Transformer 的跨模态嵌入表现更加优秀。