Jun, 2020

图像检索中的图像 - 文本查询组合学习

TL;DR本文研究了基于多模态(图像 - 文本)查询的图像检索问题,提出了自编码器模型 ComposeAE,采用深度度量学习方法学习了推动源图像和文本查询组成更接近目标图像的度量,并在 MIT-States、Fashion200k 和 FashionIQ 三个基准数据集上优于当前最先进的 TIRG 方法。