CVPRNov, 2014

从字幕到视觉概念的转换和回归

TL;DR本文提出了一种用于自动生成图像描述的新方法:使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。