ICCVAug, 2019

对抗表示学习用于文本到图像匹配

TL;DR本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型,该模型可以学习到模态不变的特征表示,在四个公开数据集上取得了最优的交叉模态匹配性能,排名 1 的准确率提高了 2%到 5%。