Jun, 2020

MAGNet:自然语言查询短语级别多区域注意力引导定位

TL;DR利用空间注意力网络实现图像级视觉-文本融合,结合本地(单词)和全局(短语)信息实现区域建议,将其应用于短语查询并利用MAGNet模型在ReferIt游戏数据集上取得了超过12%的性能提升。