Dec, 2014

深度视觉语义对齐生成图像描述

TL;DR本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型,用于生成图像及其区域的自然语言描述,并展示了在多个数据集上,该模型的对齐模型均优于基准检索结果,生成的描述显著优于检索结果和基准。