May, 2015

Flickr30k 实体:收集区域到短语的对应关系以构建更丰富的图像到句子模型

TL;DR本文介绍了 Flickr30k 实体数据集,其中增加了 244k 个共指链,将相同实体的提及于同一图像中的不同标题链接起来,并与 276k 个手动标注的边界框关联。该注释对于自动图像描述和基于语言的图像理解的持续进展至关重要。