ICCVAug, 2019

一种快速精确的一阶段视觉定位方法

TL;DR提出一种基于单阶段模型的视觉 grounding 方法,将文本查询的嵌入与 YOLOv3 物体检测器融合,加入空间特征以处理查询中的空间提及,并实现端到端联合优化,实验表明此方法对于短语定位和指代表达理解具有很大的潜力,同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移