Apr, 2019

自然场景中的视觉查询检测

TL;DR本文介绍了一种名为“Visual Query Detection”的新型视觉定位任务。在这项任务中,系统通过自然语言指导,定位图像中数量可变的多个对象。与视觉指代表达识别相关的是该任务只定位一个对象。本文提出了第一个VQD数据集,并且提出了基线算法,证明了相对于指代表达识别而言该任务的难度。