NIPSMar, 2018
可解释的、全局最优的基于图像概念的文本 grounding 预测
Interpretable and Globally Optimal Prediction for Textual Grounding using Image Concepts
Raymond A. Yeh, Jinjun Xiong, Wen-mei W. Hwu, Minh N. Do, Alexander G. Schwing
TL;DR本文研究了文本 grounding 的问题,提出了一种统一的框架来有效地搜索所有可能的 bounding box 提议,通过训练的模型参数作为 word-embedding,实现了空间 - 图像关系的捕捉和解释性,实验表明本方法在 Flickr 30k Entities 和 ReferItGame 数据集上的表现要好于当前最先进的方法。