ICCVMar, 2019

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

TL;DR使用图像字幕对弱监督进行自由文本短语连接的问题展开研究,提出了一种新颖的端到端模型,并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。