Nov, 2017

并行关注:通过对话和查询实现视觉对象发现的统一框架

TL;DR提出了一个基于多类型注意力机制的网络框架,可以在自然语言对话中,基于变长的自然语言表述,快速准确地识别图像中被指称的对象,该方法在多个基准测试集上性能卓越。