NIPSMar, 2018

可解释的、全局最优的基于图像概念的文本 grounding 预测

TL;DR本文研究了文本 grounding 的问题,提出了一种统一的框架来有效地搜索所有可能的 bounding box 提议,通过训练的模型参数作为 word-embedding,实现了空间 - 图像关系的捕捉和解释性,实验表明本方法在 Flickr 30k Entities 和 ReferItGame 数据集上的表现要好于当前最先进的方法。