May, 2017

具有语言结构的短语弱监督视觉定位

TL;DR文章提出了一种弱监督方法,该方法以图像-句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。