CVPRApr, 2018

在汉堡中查找豆子:利用深度语义视觉嵌入实现定位

TL;DR本研究提出了一种新的两条路径的神经网络,其中视觉路径采用了最新的空间感知池化机制模型,结合从头开始训练的文本路径,实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后,该模型可提供新的跨模态检索性能和短语的视觉定位,达到了最新的最佳表现。