CVPRJun, 2019

跨模式检索的多义词视觉语义嵌入

TL;DR本文介绍了多义实例嵌入网络(PIE-Nets),通过多头自注意力和残差学习,结合全局上下文和局部特征计算实例的多个不同表示形式,以解决当前方法无法有效处理多义实例的问题,并且将其应用于图像文本检索和更具挑战性的视频文本检索,同时发布了一个用于研究视频文本检索的 MRW 数据集。