Nov, 2015

自然语言对象检索

TL;DR本文提出了一种基于 SCRC 模型来实现自然语言对象检索的方法,利用空间配置和全局场景级上下文信息对网络进行评分,通过循环网络处理查询文本、本地图像描述符、空间配置以及全局上下文特征来输出概率,实现了从图像标题到任务的视觉语言知识的转移,实验结果表明我们的模型有效地利用了局部和全局信息,在不同数据集和场景中显著优于先前的基准方法,并可以利用大规模的视觉和语言数据集进行知识转移。