BriefGPT.xyz
May, 2017
具有语言结构的短语弱监督视觉定位
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
HTML
PDF
Fanyi Xiao, Leonid Sigal, Yong Jae Lee
TL;DR
文章提出了一种弱监督方法,该方法以图像-句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
Abstract
We propose a
weakly-supervised approach
that takes image-sentence pairs as input and learns to
visually ground
(i.e., localize) arbitrary
linguis
→