Nov, 2015

通过常识推理和知识,利用场景描述图将图像转换为句子

TL;DR本文提出了一种利用视觉场景中的场景描述图(SDG)从图像中提取语言描述的方法,该方法通过自动构建的知识库应用视觉和推理的方式构建 SDG,并使用自然语言处理的图像注释进行的 “常识” 知识库和来自资源(如 WordNet)的词汇本体知识。通过针对 Flickr8k、Flickr30k 和 MS-COCO 数据集的基于 Amazon Mechanical Turk(AMT)的评估,我们的方法获得的自动构建句子的 SDGs 通常比基于最新的最先进的图像标题方法更相关和全面的描述了图像。我们的图像 - 句子对齐评估结果也与最新的最先进方法相当。