ICCVNov, 2016

基于综合图像 - 语言线索的短语定位和视觉关系检测

TL;DR该论文提出了一种利用大量语言和视觉线索定位或落实图像中短语的框架,该系统在 Flickr30k 实体数据集的短语定位和斯坦福 VRD 数据集的视觉关系检测上取得了最先进的性能。